تعلم المتبقي العميق للتعرف على الصور

تمهيد

شكلت هذه البنية نقلة في التعلم العميق، ففي حين كان العمق في الشبكات العصبية لا يتجاوز 10 إلى 15 طبقة ما قبل هذه البنية، أصبح عمق الشبكات العصبية مابعدها يتجاوز الـ 100 إلى 150 طبقة. ما شكل نقلة نوعية في هذا المجال. ففي حين كان على طبقات الشبكة العصبية أن تتعلم كافة التحويل من الدخل إلى الخرج، أصبح كافي أن تتعلم كل مجموعة من الطبقات جزء من ذلك التحول، وبتراكم تلك الطبقات التي تمثل اجزاء التحول المطلوب، نحصل على كافة التحول من صور على دخل الشبكة إلى نوع الكائن الموجود داخل تلك الصور على خرجها. حاول أن تتصور ذلك التحول من صورة مؤلفة من 255x255x3 إلى متجه من 1000 قيمة احدى تلك القيم تمثل صنف الكائن الموجود في تلك الصورة. بذلك يمكننا أن نتصور أن ما تعلمته كل مجموعة من الطبقات هو باقي طرح خرج تلك الطبقة من الدخل، وهو أسهل بكثير من تعلم كافة التحويل.

الخلاصة

تزداد صعوبة تدريب الشبكات العصبية بزيادة عمقها، كما هو معلوم.

يقدم الباحثون في هذه الورقة إطار عمل لتعلم المتبقي لتسهيل تدريب الشبكات الأعمق بكثير من تلك المستخدمة سابقاً.

أعاد الباحثون صياغة الطبقات لتصبح كدالة الباقي بنسبة إلى مدخلاتها، بعد تعليمها، بدلًا من تعليمها كدالة بدون مرجعية.

قدم الباحثون أدلة تجريبية شاملة تُظهر أن شبكات البواقي أسهل في التحسين، ويمكنها تحقيق دقة أعلى مع زيادة العمق بشكل ملحوظ.

قيّم الباحثون شبكات البواقي على مجموعة بيانات شبكة الصور، بعمق يصل إلى 152 طبقة - أي أعمق بثمانية أضعاف من شبكات مجموعة الهندسة البصرية 1 مع الحفاظ على تعقيد أقل.

حققت مجموعة من شبكات البواقي نسبة خطأ 3.57% على مجموعة اختبار شبكة الصور.

وقد فازت هذه النتيجة بالمركز الأول في مهمة التصنيف بتحدي التعرف البصري واسع النطاق لشبكة الصور لعام 2015.

كما قدم الباحثون تحليلًا على مجموعة بيانات المعهد الكندي للأبحاث المتقدمة بـ 10 أصناف مع 100 و 1000 طبقة.


لعمق التمثيلات التي تتعلمها طبقات الشبكة العصبية أهمية بالغة في مهام التعرّف البصري.

حقق الباحثون تحسّنًا بنسبة 28% على مجموعة بيانات الكائنات العامة في السياق للكشف عن الكائنات، بفضل التمثيلات العميقة للغاية المقدمة في هذه الورقة.

شكلت شبكات البواقي العميقة أساسًا لمشاركات الباحثين في مسابقتي الكائنات العامة في السياق لعام 2015 و التعرف البصري واسع النطاق لعام 2015، حيث حصد الباحثون أيضاً المراكز الأولى في مهام كشف الكائنات في شبكة الصور، وتحديد مواقعها، والكشف عنها وتجزئتها في مجموعة بيانات الكائنات العامة في السياق.


المصطلحات التأسيسية

تعلم المتبقي دالة الباقي دالة بدون مرجعية مجموعة الهندسة البصرية تحدي التعرف البصري واسع النطاق لشبكة الصور لعام 2015 تحدي الكائنات العامة في السياق 2015 مجموعة بيانات المعهد الكندي للأبحاث المتقدمة بـ 10 أصناف تمثيل الكائنات العامة في السياق شبكات البواقي كشف الكائنات تجزئة تحديد الموقع تلاشي التدرج انفجار التدرج التقارب التهيئة الطبيعية طبقات التطبيع الوسيطة التدرج العشوائي الانتشار العكسي مشكلة التدهور دقة التدريب طبقة مُطابقة

المقدمة

أدت شبكات الطي العصبية العميقة 2 3 إلى سلسلة من الإنجازات في تصنيف الصور 3 4 5.

يتكامل طبيعياً وعلى شكل طبقات جسم الشبكات العميقة والذي يمثل الميزات منخفضة ومتوسطة وعالية المستوى 4 مع رأسها والذي يمثل المصنف، وكلما تراكمت الطبقات (زاد عمق الشبكة) زادت تلك المستويات ثراءً. تشير الأدلة حتى نشر هذه الورقة 1 6 إلى أن عمق الشبكة ذو أهمية بالغة، وأن النتائج الرائدة 1 6 7 8 على مجموعة بيانات صعبة كشبكة الصور 9 جاءت جميعها من استخدام نماذج "عميقة جدًا" 1، بعمق يتراوح بين ستة عشر 1 وثلاثين 8. كما استفادت العديد من مهام التعرف البصري غير البسيطة الأخرى 10 11 12 13 14 بشكل كبير من النماذج العميقة جدًا.
هنا يبرز السؤال، إنطلاقاً من أهمية العمق: هل تدريب شبكات أفضل بسهولة إضافة المزيد من الطبقات؟ كانت العقبات التي تحول دون الإجابة على هذا السؤال هي مشكلتي تلاشي وانفجار التدرجات المعروفة 15 16 17، والتي تعيق التقارب منذ البداية. حُلت هذه المشاكل إلى حد كبير من خلال التهيئة الطبيعية 18 17 19 7 وإضافة طبقات التطبيع الوسيطة 8، ما مكّن الشبكات ذات العشر طبقات من بدء التقارب في خوارزمية التدرج العشوائي مع الانتشار العكسي 2.
تظهر مشكلة تدهور الأداء، مع بدأ الشبكات العميقة بالتقارب: فمع ازدياد عمق الشبكة، تصل الدقة إلى حدّها الأقصى (وهو أمر متوقع)، ثم تتدهور بسرعة. والمثير للدهشة أن هذا التدهور لا ينتج عن فرط التخصيص، بل إن إضافة المزيد من الطبقات إلى نموذج عميق مناسب يؤدي إلى زيادة خطأ التدريب، كما ورد في 20 21 وتم التحقق منه بدقة من خلال تجارب الباحثين. يوضح الشكل 1 مثالًا نموذجيًا.
يشير تدهور دقة التدريب إلى أن تحسين جميع الأنظمة ليس بنفس السهولة. لنفرض وجود بنية سطحية، وأخرى أعمق منها أضفنا عليها بعض الطبقات. تُبنى النسخة العميقة بنسخ الطبقات من البنية السطحية وإضافة طبقات مطابقة عليها. نفهم من هذا التصميم أن النموذج الأعمق يجب أن لا يُعطي خطأ تدريب أكبر من خطأ تدريب البنية السطحية. أظهرت النتائج أن الخوارزميات الحالية لدينا غير قادرة على إيجاد حلول تتفوق على الحل السابق (أو غير قادرة على ذلك في وقت معقول). يتناول الباحثون في هذه الورقة مشكلة التدهور من خلال تقديم إطار عمل لتعلم المتبقي العميق. فبدل أن يأمل الباحثون أن تتعلم كل مجموعة من الطبقات التحويل المطلوب مباشرةً، سمحوا صراحةً لهذه الطبقات بتعلم دالة الباقي. يُرمز رياضياً لدالة الربط (التحويل) المطلوب تعلمه بـ H(x)، ويُسمح لمجموعة الطبقات غير الخطية أن تتعلم دالة ربط أخرى هي F(x) := H(x)-x. وبذلك، تُعاد صياغة دالة الربط الأصلية إلى F(x)+x. ويفترض الباحثون أن تحسين دالة الربط المتبقي أسهل من تحسين دالة الربط الأصلية غير المرجعية. وفي أقصى الحالات، إذا كانت دالة الربط المطابقة هي الأمثل، فسيكون من الأسهل جعل الباقي يساوي صفرًا من مطابقة دالة الربط المطابقة بواسطة مجموعة من الطبقات غير الخطية.

المصدر

https://www.cv-foundation.org/openaccess/content_cvpr_2016/papers/He_Deep_Residual_Learning_CVPR_2016_paper.pdf

المراجع

Footnotes

  1. K. Simonyan and A. Zisserman. Very deep convolutional networks for large-scale image recognition. In ICLR, 2015. 2 3 4 5

  2. Y. LeCun, B. Boser, J. S. Denker, D. Henderson, R. E. Howard, W. Hubbard, and L. D. Jackel. Backpropagation applied to handwritten zip code recognition. Neural computation, 1989. 2

  3. A. Krizhevsky, I. Sutskever, and G. Hinton. Imagenet classification with deep convolutional neural networks. In NIPS, 2012. 2

  4. M. D. Zeiler and R. Fergus. Visualizing and understanding convolutional neural networks. In ECCV, 2014. 2

  5. P. Sermanet, D. Eigen, X. Zhang, M. Mathieu, R. Fergus, and Y. Le-Cun. Overfeat: Integrated recognition, localization and detection using convolutional networks. In ICLR, 2014.

  6. C. Szegedy,W. Liu, Y. Jia, P. Sermanet, S. Reed, D. Anguelov, D. Erhan, V. Vanhoucke, and A. Rabinovich. Going deeper with convolutions. In CVPR, 2015. 2

  7. K. He, X. Zhang, S. Ren, and J. Sun. Delving deep into rectifiers: Surpassing human-level performance on imagenet classification. In ICCV, 2015. 2

  8. S. Ioffe and C. Szegedy. Batch normalization: Accelerating deep network training by reducing internal covariate shift. In ICML, 2015. 2 3

  9. O. Russakovsky, J. Deng, H. Su, J. Krause, S. Satheesh, S. Ma, Z. Huang, A. Karpathy, A. Khosla, M. Bernstein, et al. ImageNet large scale visual recognition challenge. arXiv:1409.0575, 2014.

  10. R. Girshick, J. Donahue, T. Darrell, and J. Malik. Rich feature hierarchies for accurate object detection and semantic segmentation. In CVPR, 2014.

  11. K. He, X. Zhang, S. Ren, and J. Sun. Spatial pyramid pooling in deep convolutional networks for visual recognition. In ECCV, 2014.

  12. R. Girshick. Fast R-CNN. In ICCV, 2015.

  13. S. Ren, K. He, R. Girshick, and J. Sun. Faster R-CNN: Towards real-time object detection with region proposal networks. In NIPS, 2015.

  14. J. Long, E. Shelhamer, and T. Darrell. Fully convolutional networks for semantic segmentation. In CVPR, 2015.

  15. S. Hochreiter. Untersuchungen zu dynamischen neuronalen netzen. Diploma thesis, TU Munich, 1991.

  16. Y. Bengio, P. Simard, and P. Frasconi. Learning long-term dependencies with gradient descent is difficult. IEEE Transactions on Neural Networks, 5(2):157–166, 1994.

  17. X. Glorot and Y. Bengio. Understanding the difficulty of training deep feedforward neural networks. In AISTATS, 2010. 2

  18. Y. LeCun, L. Bottou, G. B. Orr, and K.-R.M¨uller. Efficient backprop. In Neural Networks: Tricks of the Trade, pages 9–50. Springer, 1998.

  19. A. M. Saxe, J. L. McClelland, and S. Ganguli. Exact solutions to the nonlinear dynamics of learning in deep linear neural networks. arXiv:1312.6120, 2013.

  20. K. He and J. Sun. Convolutional neural networks at constrained time cost. In CVPR, 2015.

  21. R. K. Srivastava, K. Greff, and J. Schmidhuber. Highway networks. arXiv:1505.00387, 2015.