كشف الكائنات باستخدام المحولات من البداية حتى النهاية ←
الخلاصة
تنظر الطريقة الجديدة التي قدّمها الباحثون في هذه الورقة إلى مهمة كشف الكائنات على أنها مسألة تنبؤ مباشر لمجموعة من الكائنات. يساهم هذا المنظور في تبسيط عملية الكشف بشكل كبير، إذ يزيل الحاجة إلى العديد من المكوّنات المُصمَّمة يدوياً، مثل إجراء الاستبعاد غير الأقصى (NMS) أو توليد المربعات المرجعية (anchors) الخاصة بالكائنات المراد اكتشافها، وهي مكوّنات كانت تمثل الجزء الأكبر من المعرفة المُسبقة المضمّنة بشكل صريح في أنظمة الكشف التقليدية. يتكون الإطار الرئيسي الجديد، المسمّى محشف، من دالة فاقد عامة قائمة على المجموعة تضمن إنتاج تنبؤات فريدة اعتماداً على المطابقة الثنائية، بالإضافة إلى بنية محوّل تعتمد على مُرمِّز وفاك ترميز. وانطلاقاً من مجموعة صغيرة وثابتة من استعلامات الكائنات المُتعلَّمة، يقوم المحشف بتحليل العلاقات البينية بين الكائنات ضمن السياق العام للصورة، ليولّد مباشرة وبالتوازٍي المجموعة النهائية من التنبؤات. يتميّز هذا النموذج ببساطته من الناحية النظرية، إذ لا يحتاج إلى مكتبات متخصصة، على خلاف ما تتطلبه العديد من كاشفات الكائنات الحديثة الأخرى. يُظهر المحشف أداءً عالي الدقة وسرعةً تنافس الأساس المرجعي الذي يقدّمه نموذج Faster R-CNN المُحسّن على مجموعة البيانات الصعبة COCO. علاوة على ذلك، يمكن تعميم نموذج المحشف بسهولة لإنتاج تجزئة شاملة ضمن إطار موحّد. وقد بيّن الباحثون أنه يتفوّق بصورة ملحوظة على خطوط الأساس المنافسة في هذا المجال. يتوفر كود التدريب والنماذج المُدرَّبة على هذا الرابط.
المقدمة
تهدف عملية كشف الكائنات إلى التنبؤ بمجموعة من المربعات التي تُحدّد مواقع الكائنات داخل الصورة، مع إسناد الاسم أو الفئة المناسبة لكل كائن ذي أهمية. وتعالج كاشفات الكائنات الحديثة مهمة التنبؤ بمجموعة كائنات بصورة غير مباشرة، إذ تعتمد على صياغتها كمسائل انحدار وتصنيف بديلة مرتبطة بعدد كبير من المقترحات1 2 أو المراسي3 أو مراكز النوافذ4 5. ويتأثر أداء تلك الكاشفات تأثراً كبيراً بخطوات المعالجة اللاحقة الهادفة إلى تقليل التنبؤات شبه المكررة، وبكيفية تصميم المراسي، وبالأساليب الاستدلالية المستخدمة لربط مربعات الكشف المستهدفة بتلك المراسي6. اقترح الباحثون، في محاولة لتبسيط خط العمل، نهج يقوم على التنبؤ المباشر بالمجموعة دون اللجوء إلى المهام البديلة. وقد أفضت هذه الفلسفة العامة إلى تقدم ملحوظ في مهام التنبؤ ذات البنية المعقدة، مثل الترجمة الآلية والتعرّف على الكلام، غير أنها لم تُحدِث أثراً مماثلاً في مجال كشف الكائنات؛ إذ إن المحاولات السابقة7 8 9 10 إمّا اعتمدت على إضافة أشكال مختلفة من المعرفة المسبقة، أو لم تتمكّن من إثبات قدرتها التنافسية مقارنة بخطوط الأساس القوية ضمن معايير تقييم صارمة. وتهدف هذه الورقة إلى سد هذه الفجوة. بسّط الباحثون خط عمل التدريب عبر التعامل مع كشف الكائنات بوصفها مسألة تنبؤ مباشر بالمجموعة. واعتمدوا بنية مُرمِّز–فاك ترميز قائمة على المحوّل11، وهي بنية شائعة في مهام التنبؤ بالسلاسل. إن آليات الإنتباه الذاتي للمحولات، والتي تُنمذج صراحة جميع التفاعلات بين كل عنصرين في سلسلة الدخل، تجعل هذه البنية مناسبة بشكل خاص للقيود المصاحبة للتنبؤ بالمجموعة مثل إزالة التنبؤات المكررة. يتنبأ المحشف (إنظر الشكل 1) بجميع الكائنات دفعةً واحدة، ويُدرَّب تدريباً شاملاً اعتماداً على دالة فاقد قائمة على المجموعة، تقوم بإجراء مطابقة ثنائية بين الكائنات المتوقَّعة ونظيراتها الحقيقية. يُبسّط المحشف سير عمل اكتشاف الكائنات عبر الاستغناء عن العديد من المكوّنات المصمَّمة يدوياً في النماذج السابقة، مثل المراسي المكانية أو الاستبعاد غير الأقصى (NMS). لا يحتاج المحشف أي طبقات مخصّصة، بخلاف معظم طرق الكشف السابقة، الأمر الذي يسهّل إعادة تنفيذه في أي إطار عمل يدعم طبقات الطي أو الالتفاف والمحوّل (اعتمد الباحثون في هذا العمل على الأكواد القياسية للمحوّل 11، وشبكات البواقي 12 بوصفها العمود الفقري للنموذج، مستفيدين من مكتبات التعلّم العميق الشائعة دون تطوير مكوّنات مخصّصة إضافية). تتمثل الميزة الرئيسية للمحشف - مقارنة بمعظم الأعمال السابقة في مجال التنبؤ المباشرة بالمجموعة - في اقتران دالة فاقد المجموعة ذات المطابقة الثنائية بالمحول مع أجزاء فك التشفير المتوازي (غير الإنحداري الذاتي)13 14 15 16. انصبت الجهود السابقة على استخدام فكّ التشفير الانحداري الذاتي باستخدام الشبكات العصبية المتكررة 7 17 18 19 20، تأتي دالة فاقد المجموعة ذات المطابقة الثنائية لتعيّن تنبؤاً فريداً لكل كائن حقيقي، دون أن يتأثر هذا التعيين بتبديل ترتيب الكائنات المتوقعة. مايُتيح إنتاج التنبؤات التوازي.
المراجع
Footnotes
-
Cai, Z., Vasconcelos, N.: Cascade R-CNN: High quality object detection and instance segmentation. PAMI (2019) ↩
-
Ren, S., He, K., Girshick, R.B., Sun, J.: Faster R-CNN: Towards real-time object detection with region proposal networks. PAMI (2015) ↩
-
Lin, T.Y., Goyal, P., Girshick, R.B., He, K., Dollar, P.: Focal loss for dense object detection. In: ICCV (2017) ↩
-
Tian, Z., Shen, C., Chen, H., He, T.: FCOS: Fully convolutional one-stage object detection. In: ICCV (2019) ↩
-
Zhou, X., Wang, D., Krahenbuhl, P.: Objects as points. arXiv:1904.07850 (2019) Carion et al. ↩
-
Zhang, S., Chi, C., Yao, Y., Lei, Z., Li, S.Z.: Bridging the gap between anchor-based and anchor-free detection via adaptive training sample selection. arXiv:1912.02424 (2019) ↩
-
Stewart, R.J., Andriluka, M., Ng, A.Y.: End-to-end people detection in crowded scenes. In: CVPR (2015) ↩ ↩2
-
Hosang, J.H., Benenson, R., Schiele, B.: Learning non-maximum suppression. In: CVPR (2017) ↩
-
Bodla, N., Singh, B., Chellappa, R., Davis, L.S.: Soft-NMS improving object detection with one line of code. In: ICCV (2017) ↩
-
Rezato ghi, S.H., Kaskman, R., Motlagh, F.T., Shi, Q., Cremers, D., Leal-Taixe, L., Reid, I.: Deep perm-set net: Learn to predict sets with unknown permutation and cardinality using deep neural networks. arXiv:1805.00613 (2018) ↩
-
Vaswani, A., Shazeer, N., Parmar, N., Uszkoreit, J., Jones, L., Gomez, A.N., Kaiser, L., Polosukhin, I.: Attention is all you need. In: NeurIPS (2017) ↩ ↩2
-
He, K., Zhang, X., Ren, S., Sun, J.: Deep residual learning for image recognition. In: CVPR (2016) ↩
-
Oord, A.v.d., Li, Y., Babuschkin, I., Simonyan, K., Vinyals, O., Kavukcuoglu, K., Driessche, G.v.d., Lockhart, E., Cobo, L.C., Stimberg, F., et al.: Parallel wavenet: Fast high-fidelity speech synthesis. arXiv:1711.10433 (2017) ↩
-
Gu, J., Bradbury, J., Xiong, C., Li, V.O., Socher, R.: Non-autoregressive neural machine translation. In: ICLR (2018) ↩
-
Ghazvininejad, M., Levy, O., Liu, Y., Zettlemoyer, L.: Mask-predict: Parallel decoding of conditional masked language models. arXiv:1904.09324 (2019) ↩
-
Devlin, J., Chang, M.W., Lee, K., Toutanova, K.: BERT: Pre-training of deep bidirectional transformers for language understanding. In: NAACL-HLT (2019) ↩
-
Romera-Paredes, B., Torr, P.H.S.: Recurrent instance segmentation. In: ECCV (2015) ↩
-
Park, E., Berg, A.C.: Learning to decompose for object detection and instance segmentation. arXiv:1511.06449 (2015) ↩
-
Ren, M., Zemel, R.S.: End-to-end instance segmentation with recurrent attention. In: CVPR (2017) ↩
-
Salvador, A., Bellver, M., Baradad, M., Marques, F., Torres, J., Giro, X.: Recurrent neural networks for semantic instance segmentation. arXiv:1712.00617 (2017) ↩