كشف الكائنات

يُعتبر كشف الكائنات أحد التقنيات المحورية في مجال الرؤية الحاسوبية، حيث تتمكن أنظمة الحاسب من تحديد هوية وموقع الكائنات داخل الصور أو الفيدوهات. ويوفر كشف الكائنات فهماً دقيقاً للصور والفيديوهات حيث يتنبأ بفئة الكائن (شخص، سيارة، حصان) وموقعه المكاني في آن واحد. تُمثل مهمة تصنيف الصور الشكل الأبسط لمهمة كشف الكائنات حيث تُسند تصنيف واحد لكامل الصور. في حين يُشار إلى مواقع الكائنات هنا بمستطيل يحيط بها، مع درجة ثقة لكل مستطيل تُشير إلى دقة الكشف لكل كائن في الصورة. تُشكل القدرة المزدوجة (تحديد الصنف، والتحديد المكاني) الأساس الحسي لتطبيقات الذكاء الاصطناعي، والتي تعطي الآلات إمكانية التفاعل مع بيئتها.

آليات الكشف

تعتمد نماذج الكشف الحديثة بشدة على بنى التعلم العميق ـ وتحديداً شبكات الطي العصبية ـ لاستخلاص السمات المركبة من صور الدخل. تبدأ العملية بمرحلة التدريب، حيث يتعلم النموذج كيفية التعرف على الأنماط باستخدام مجموعات بيانات ضخمة ومعنونة، مثل مجموعة الكائنات ضمن السياق. تُحسن الخوارزمية أوزان النموذج ـ خلال هذه المرحلة ـ لتقليل أخطاء التنبؤ.

يمسح النموذج الصورة ـ بعد إطلاقه للإستدلال ـ بحثاً عن مقترحات محتملة للكائنات داخلها. ثم تعمل خوارزميات متقدمة مثل الاستبعاد غير الأقصى لتصفية الاكتشافات المتكررة وذلك لضمان الفرادة في الكائنات المكتشفة بحيث يُمثّل كل كائن في الصورة مرة واحدة فقط. تُقيم دقة الإكتشافات غالباً باستخدام مقياس التقاطع على الاتحاد، والذي يقيس مدى تداخل مستطيل الإحاطة المُكتشف من النموذج مع مستطيل الاحاطة الحقيقي. أدت التطورات الأخيرة إلى ظهور بُنى متكاملة، تُبسط هذه العملية لتحقيق سرعة استثنائية، وقدرات استدلال فورية على الأجهزة الطرفية.