كشف الكائنات باستخدام المحولات من البداية حتى النهاية ←

الخلاصةAbstract

تنظر الطريقة الجديدة التي قدّمها الباحثون في هذه الورقة إلى مهمة كشف الكائنات على أنها مسألة تنبؤ مباشر لمجموعة من الكائنات. We present a new method that views object detection as a direct set prediction problem. يساهم هذا المنظور في تبسيط عملية الكشف بشكل كبير، إذ يزيل الحاجة إلى العديد من المكوّنات المُصمَّمة يدوياً، مثل إجراء الاستبعاد غير الأقصى أو توليد المربعات المرجعية الخاصة بالكائنات المراد اكتشافها، وهي مكوّنات كانت تمثل الجزء الأكبر من المعرفة السابقة في أنظمة الكشف التقليدية.Our approach streamlines the detection pipeline, effectively removing the need for many hand-designed components like a non-maximum suppression procedure or anchor generation that explicitly encode our prior knowledge about the task. يتكون الإطار الجديد، المسمّى محشف، من المكونات الرئيسية التالية: دالة فاقد عامة للمجموعة تضمن إنتاج تنبؤات فريدة اعتماداً على المطابقة الثنائية، بالإضافة إلى بنية محوّل تعتمد على مُرمِّز وفاك ترميز.The main ingredients of the new framework, called DEtection TRansformer or DETR, are a set-based global loss that forces unique predictions via bipartite matching, and a transformer encoder-decoder architecture. يقوم المحشف بتحليل العلاقات بين الكائنات الموجودة والسياق العام للصورة، إنطلاقاً من مجموعة صغيرة وثابتة من استعلامات الكائنات التي تعلمها سابقاً، يولد النموذج مباشرة وبالتوازي المجموعة النهائية من الكائنات التي كشفها في الصورة.Given a fixed small set of learned object queries, DETR reasons about the relations of the objects and the global image context to directly output the nal set of predictions in parallel. يتميّز هذا النموذج ببساطته النظرية، إذ لا يحتاج إلى مكتبات متخصصة، على خلاف ما تتطلبه العديد من كاشفات الكائنات الحديثة الأخرى. The new model is conceptually simple and does not require a specialized library, unlike many other modern detectors. يُظهر المحشف أداءً عالي الدقة وسرعةً تنافس الأساس المرجعي الذي يقدّمه نموذج شبكات الطي المناطقية الأسرع والمُحسّن على مجموعة بيانات الكائنات العامة في السياق.DETR demonstrates accuracy and run-time performance on par with the well-established and highly-optimized Faster RCNN baseline on the challenging COCO object detection dataset. علاوة إلى إمكانية تعميم نموذج المحشف بسهولة لإنتاج تجزئة شاملة ضمن إطار موحّد.Moreover, DETR can be easily generalized to produce panoptic segmentation in a unified manner. وقد بيّن الباحثون تفوّقه الملحوظ على خطوط الأساس المنافسة في هذا المجال.We show that it significantly outperforms competitive baselines. يتوفر كود التدريب والنماذج المُدرَّبة على هذا الرابط.Training code and pretrained models are available at https://github.com/facebookresearch/detr

المصطلحات التأسيسية

تنبؤ مباشر لمجموعة من الكائنات ● الاستبعاد غير الأقصى ● توليد المربعات المرجعية ● محشف ● دالة فاقد عامة للمجموعة ● المطابقة الثنائية ● الكائنات العامة في السياق ● شبكات الطي المناطقية الأسرع ● تجزئة شاملة

1. المقدمة

تهدف عملية كشف الكائنات إلى التنبؤ بمجموعة من المربعات التي تُحدّد مواقع الكائنات داخل الصورة، مع إسناد الاسم أو الفئة المناسبة لكل كائن ذي أهمية. وتعالج كاشفات الكائنات الحديثة مهمة التنبؤ بمجموعة كائنات بصورة غير مباشرة، إذ تعتمد على صياغتها كمسائل انحدار وتصنيف بديلة مرتبطة بعدد كبير من المقترحات¹ ² أو المراسي³ أو مراكز النوافذ⁴ ⁵. ويتأثر أداء تلك الكاشفات تأثراً كبيراً بخطوات المعالجة اللاحقة الهادفة إلى تقليل التنبؤات شبه المكررة، وبكيفية تصميم المراسي، وبالأساليب الاستدلالية المستخدمة لربط مربعات الكشف المستهدفة بتلك المراسي⁶. اقترح الباحثون، في محاولة لتبسيط خط العمل، نهج يقوم على التنبؤ المباشر بالمجموعة دون اللجوء إلى المهام البديلة. وقد أفضت هذه الفلسفة العامة إلى تقدم ملحوظ في مهام التنبؤ ذات البنية المعقدة، مثل الترجمة الآلية والتعرّف على الكلام، غير أنها لم تُحدِث أثراً مماثلاً في مجال كشف الكائنات؛ إذ إن المحاولات السابقة⁷ ⁸ ⁹ ¹⁰ إمّا اعتمدت على إضافة أشكال مختلفة من المعرفة المسبقة، أو لم تتمكّن من إثبات قدرتها التنافسية مقارنة بخطوط الأساس القوية ضمن معايير تقييم صارمة. وتهدف هذه الورقة إلى سد هذه الفجوة.

يتنبأ المحشف بمجموعة تحتوي كافة الكائنات دفعة واحدة الشكل 1: يتنبأ المحشف مباشرة (بالتوازي) بالمجموعة النهائية من عمليات الكشف من خلال دمج شبكة الطي المعروفة من بنية محول. أثناء التدريب، تُعين المطابقة الثنائية التنبؤات بشكل فريد مع مربعات الحقيقة. يجب أن ينتج عن التنبؤ بدون تطابق تنبؤ من فئة "لايوجد"

بسّط الباحثون خط عمل التدريب عبر التعامل مع كشف الكائنات بوصفها مسألة تنبؤ مباشر بالمجموعة. واعتمدوا بنية مُرمِّز–فاك ترميز قائمة على المحوّل¹¹، وهي بنية شائعة في مهام التنبؤ بالسلاسل. إن آليات الإنتباه الذاتي للمحولات، والتي تُنمذج صراحة جميع التفاعلات بين كل عنصرين في سلسلة الدخل، تجعل هذه البنية مناسبة بشكل خاص للقيود المصاحبة للتنبؤ بالمجموعة مثل إزالة التنبؤات المكررة.

يتنبأ المحشف (إنظر الشكل 1) بجميع الكائنات دفعةً واحدة، ويُدرَّب تدريباً شاملاً اعتماداً على دالة فاقد قائمة على المجموعة، تقوم بإجراء مطابقة ثنائية بين الكائنات المتوقَّعة ونظيراتها الحقيقية. يُبسّط المحشف سير عمل اكتشاف الكائنات عبر الاستغناء عن العديد من المكوّنات المصمَّمة يدوياً في النماذج السابقة، مثل المراسي المكانية أو الاستبعاد غير الأقصى (NMS). لا يحتاج المحشف أي طبقات مخصّصة، بخلاف معظم طرق الكشف السابقة، الأمر الذي يسهّل إعادة تنفيذه في أي إطار عمل يدعم طبقات الطي أو الالتفاف والمحوّل (اعتمد الباحثون في هذا العمل على الأكواد القياسية للمحوّل ¹¹، وشبكات البواقي ¹² بوصفها العمود الفقري للنموذج، مستفيدين من مكتبات التعلّم العميق الشائعة دون تطوير مكوّنات مخصّصة إضافية).

تتمثل الميزة الرئيسية للمحشف - مقارنة بمعظم الأعمال السابقة في مجال التنبؤ المباشرة بالمجموعة - في اقتران دالة فاقد المجموعة ذات المطابقة الثنائية بالمحول مع أجزاء فك التشفير المتوازي (غير الإنحداري الذاتي)¹³ ¹⁴ ¹⁵ ¹⁶. انصبت الجهود السابقة على استخدام فكّ التشفير الانحداري الذاتي باستخدام الشبكات العصبية المتكررة ⁷ ¹⁷ ¹⁸ ¹⁹ ²⁰، تأتي دالة فاقد المجموعة ذات المطابقة الثنائية لتعيّن تنبؤاً فريداً لكل كائن حقيقي، دون أن يتأثر هذا التعيين بتبديل ترتيب الكائنات المتوقعة. مايُتيح إنتاج التنبؤات التوازي.

قيّم الباحثون المحشف على مجموعة بيانات الكائنات الشائعة في سياقها²¹، والتي تعد إحدى أشهر مجموعات بيانات كشف الكائنات، وقارنوا النتائج مع نموذج شبكات الطي المناطقية الأسرع² المنافس الأشد. خضع نموذج شبكات الطي المناطقية الأسرع للعديد من التحسينات في التصميم، وتحسن أداؤه بشكل ملحوظ منذ نشره أول مرة. أظهرت تجارب الباحثون أن المحشف يحقق أداءً مقارباً، وللدقة فقد أظهر أداء أفضل بشكل ملحوظ على الأجسام الكبيرة، وهي نتيجة يُرجّح أنها ناتجة عن العمليات الحسابية غير المحلية في المُحوّل. حقق النموذج الجديد أداءً أقل على الأجسام الصغيرة. يتوقع الباحثون أن تُحسِن الأعمال المستقبلية هذا الجانب بنفس الطريقة التي حسّنت بها شبكة الميزات الهرمية ²² أداء نموذج شبكات الطي المناطقية الأسرع.

تختلف إعدادات تدريب المحشف عن إعدادات كاشفات الأجسام التقليدية في جوانب متعددة. حيث يتطلب النموذج الجديد فترة تدريب طويلة للغاية، ويستفيد من مجموع فواقد وحدة فك التشفير الإضافية في المحول. يستكشف الباحثون بدقة المكونات الأساسية التي للأداء الذي تتحدث هذه الورقة عنه.

يمكن تطبيق الفلسفة المتبعة لتصميم المحشف بسهولة على مهام أكثر تعقيدًا. بيّن الباحثون في تجاربهم أن رأس تجزئة بسيط مُدرب على محشف مُدرب مسبقًا يتفوق على النماذج الأساسية المنافسة في التجزئة الشاملة²³، وهي مهمة صعبة اكتسبت شعبية مؤخراً للتعرف على كل بكسل.

2. الأعمال ذات الصلة

تستند هذه الورقة على مجموعة من الأعمال السابقة في عدة مجالات: فاقد المطابقة الثنائية للتنبؤ بالمجموعات، وهياكل التشفير وفك التشفير القائمة على المحول، وفك التشفير المتوازي، وطرق الكشف عن الكائنات.

2.1 التنبؤ بمجموعة

لا يوجد نموذج تعلم عميق معياري للتنبؤ بمجموعة مباشرة. تتمثل مهمة التنبؤ الأساسية بمجموعة في تصنيف متعدد التصنيفات (انظر على سبيل المثال ²⁴ ²⁵ للاطلاع على مراجع في سياق الرؤية الحاسوبية)، حيث لا ينطبق النهج الأساسي،

2.2 المحولات وفك التشفير المتوازي

2.3 كشف الكائنات

المراجع

Cai, Z., Vasconcelos, N.: Cascade R-CNN: High quality object detection and instance segmentation. PAMI (2019) ↩
Ren, S., He, K., Girshick, R.B., Sun, J.: Faster R-CNN: Towards real-time object detection with region proposal networks. PAMI (2015) ↩ ↩²
Lin, T.Y., Goyal, P., Girshick, R.B., He, K., Dollar, P.: Focal loss for dense object detection. In: ICCV (2017) ↩
Tian, Z., Shen, C., Chen, H., He, T.: FCOS: Fully convolutional one-stage object detection. In: ICCV (2019) ↩
Zhou, X., Wang, D., Krahenbuhl, P.: Objects as points. arXiv:1904.07850 (2019) Carion et al. ↩
Zhang, S., Chi, C., Yao, Y., Lei, Z., Li, S.Z.: Bridging the gap between anchor-based and anchor-free detection via adaptive training sample selection. arXiv:1912.02424 (2019) ↩
Stewart, R.J., Andriluka, M., Ng, A.Y.: End-to-end people detection in crowded scenes. In: CVPR (2015) ↩ ↩²
Hosang, J.H., Benenson, R., Schiele, B.: Learning non-maximum suppression. In: CVPR (2017) ↩
Bodla, N., Singh, B., Chellappa, R., Davis, L.S.: Soft-NMS improving object detection with one line of code. In: ICCV (2017) ↩
Rezato ghi, S.H., Kaskman, R., Motlagh, F.T., Shi, Q., Cremers, D., Leal-Taixe, L., Reid, I.: Deep perm-set net: Learn to predict sets with unknown permutation and cardinality using deep neural networks. arXiv:1805.00613 (2018) ↩
Vaswani, A., Shazeer, N., Parmar, N., Uszkoreit, J., Jones, L., Gomez, A.N., Kaiser, L., Polosukhin, I.: Attention is all you need. In: NeurIPS (2017) ↩ ↩²
He, K., Zhang, X., Ren, S., Sun, J.: Deep residual learning for image recognition. In: CVPR (2016) ↩
Oord, A.v.d., Li, Y., Babuschkin, I., Simonyan, K., Vinyals, O., Kavukcuoglu, K., Driessche, G.v.d., Lockhart, E., Cobo, L.C., Stimberg, F., et al.: Parallel wavenet: Fast high-fidelity speech synthesis. arXiv:1711.10433 (2017) ↩
Gu, J., Bradbury, J., Xiong, C., Li, V.O., Socher, R.: Non-autoregressive neural machine translation. In: ICLR (2018) ↩
Ghazvininejad, M., Levy, O., Liu, Y., Zettlemoyer, L.: Mask-predict: Parallel decoding of conditional masked language models. arXiv:1904.09324 (2019) ↩
Devlin, J., Chang, M.W., Lee, K., Toutanova, K.: BERT: Pre-training of deep bidirectional transformers for language understanding. In: NAACL-HLT (2019) ↩
Romera-Paredes, B., Torr, P.H.S.: Recurrent instance segmentation. In: ECCV (2015) ↩
Park, E., Berg, A.C.: Learning to decompose for object detection and instance segmentation. arXiv:1511.06449 (2015) ↩
Ren, M., Zemel, R.S.: End-to-end instance segmentation with recurrent attention. In: CVPR (2017) ↩
Salvador, A., Bellver, M., Baradad, M., Marques, F., Torres, J., Giro, X.: Recurrent neural networks for semantic instance segmentation. arXiv:1712.00617 (2017) ↩
Lin, T.Y., Maire, M., Belongie, S., Hays, J., Perona, P., Ramanan, D., Dollar, P., Zitnick, C.L.: Microsoft COCO: Common objects in context. In: ECCV (2014) ↩
Lin, T.Y., Dollar, P., Girshick, R., He, K., Hariharan, B., Belongie, S.: Feature pyramid networks for object detection. In: CVPR (2017) ↩
Kirillov, A., He, K., Girshick, R., Rother, C., Dollar, P.: Panoptic segmentation. In: CVPR (2019) ↩
Pineda, L., Salvador, A., Drozdzal, M., Romero, A.: Elucidating image-to-set prediction: An analysis of models, losses and datasets. arXiv:1904.05709 (2019) ↩
Rezato ghi, S.H., Milan, A., Abbasnejad, E., Dick, A., Reid, I., Kaskman, R., Cremers, D., Leal-Taix, l.: Deepsetnet: Predicting sets with deep neural networks. In: ICCV (2017) ↩