قاعدة بيانات صور ImageNet الهرمية واسعة النطاق

الخلاصة

يُتيح الانفجار الهائل في عدد الصور المتاح على الإنترنت إمكانية تطوير نماذج وخوارزميات متطورة وقوية لفهرسة واسترجاع وتنظيم الصور وبيانات الوسائط المتعددة والتفاعل معها. إلا أن كيفية تسخير وتنظيم هذه الصور بدقة لا تزال تُمثل مشكلةً حرجة. نُقدم هذه الورقة قاعدة بيانات جديدة ضخمة من الصور تُسمى ImageNet، مبنية على هيكلية بنية WordNet. تهدف ImageNet إلى ملء غالبية مجموعات المرادفات (synsets) التي تقدمها WordNet، والبالغ عددها 80,000، بصور نقية وكاملة الدقة بمتوسط ​​يتراوح بين 500 و1000. سيؤدي ذلك إلى عشرات الملايين من الصور المعنونة، والمُرتبة حسب التسلسل الهرمي الدلالي لـ WordNet. تُقدم هذه الورقة تحليلًا مُفصلًا لـ ImageNet في حالتها الحالية: 12 شجرة فرعية تحتوي على 5247 مجموعة مرادفات و3.2 مليون صورة إجمالًا. يظهر الباحثون أن ImageNet أكبر حجمًا وتنوعًا، وأكثر دقةً من مجموعات الصور الحالية. وحيث أن إنشاء قاعدة بيانات ضخمة كهذه مهمةً صعبة. فسيشرح الباحثون آلية جمع البيانات باستخدام Amazon Mechanical Turk. وأخيرًا، سيوضحون فائدة ImageNet من خلال ثلاثة تطبيقات بسيطة في التعرف على الكائنات، وتصنيف الصور، وتجميع الكائنات تلقائيًا. يأمل الباحثون أن يُتيح حجم ImageNet ودقتها وتنوعها وبنيتها الهرمية فرصًا لا مثيل لها للباحثين في مجال الرؤية الحاسوبية ومجالات أخرى.

1. مقدمة

جاء العصر الرقمي بطفرة هائلة في البيانات، حيث تشير أحدث التقديرات إلى وجود أكثر من 3 مليارات صورة على Flickr، وعدد مماثل من مقاطع الفيديو على يوتيوب، وعدد أكبر من الصور على محرك بحث الصور من قوقل. يمكن استغلال هذا العدد الهائل من الصور لاقتراح نماذج وخوارزميات أكثر تطورًا وقوة، لإنتاج تطبيقات أفضل للمستخدمين لفهرسة هذه البيانات واسترجاعها وتنظيمها والتفاعل معها. تبقى كيفية استخدام هذه البيانات وتنظيمها بدقة مشكلة لم تُحل بعد. يقدم الباحثون في هذه الورقة قاعدة بيانات صور جديدة تُسمى "ImageNet"، عبارة عن نطاق معرفي Ontology واسع للصور. ويعتقدون أن* النطاق المعرفي الواسع للصور يُعد موردًا بالغ الأهمية لتطوير خوارزميات متقدمة وواسعة النطاق للبحث عن الصور وفهمها، قائمة على المحتوى، بالإضافة إلى توفير بيانات تدريب وقياس أداء مهمة لهذه الخوارزميات*. تستخدم ImageNet البنية الهرمية لـ WordNet1. حيث يُطلق على كل مفهوم ذي معنى في WordNet، والذي ربما يتم وصفه بكلمات أو عبارات متعددة، اسم "مجموعة مرادفات" synset. يوجد حوالي 80,000 مجموعة مرادفات اسمية في WordNet. في ImageNet، يهدف الباحثون لتوفير ما متوسطه 500-1000 صورة لتوضيح كل مجموعة مرادفات. تراقب جودة صور كل مفهوم ويتم شرحها بواسطة إنسان كما هو موضح في القسم 3.2. وبالتالي، ستوفر ImageNet عشرات الملايين من الصور المصنفة بشكل نظيف. يورد الباحثون في هذه الورقة، الإصدار الحالي من ImageNet، والذي يتكون من 12 "شجرة فرعية": لـ الثدييات والطيور والأسماك والزواحف والبرمائيات والمركبات والأثاث والآلات الموسيقية والتكوينات الجيولوجية والأدوات والزهور والفواكه. تحتوي هذه الأشجار الفرعية على 5,247 مجموعة مرادفات و3.2 مليون صورة. يوضح الشكل 1 لقطة لفرعين من الأشجار الفرعية الثدييات والمركبات. قاعدة البيانات متاحة للعامة على http://www.image-net.org. رُتب ما تبقى من البحث على النحو التالي: أولاً: (القسم 2) يبين الباحثون أن ImageNet قاعدة بيانات صور واسعة النطاق ودقيقة ومتنوعة. في القسم 4، يُقدِّم الباحثون بعض الأمثلة التطبيقية البسيطة من خلال استغلال ImageNet الحالية، وخاصةً الأشجار الفرعية للثدييات والمركبات. هدفهم هو إثبات أن ImageNet يُمكن أن يكون موردًا مفيدًا لتطبيقات التعرّف البصري، مثل التعرّف على الكائنات وتصنيف الصور وتحديد مواقعها. بالإضافة إلى ذلك، لم يعد من الممكن الاعتماد على أساليب جمع البيانات التقليدية في بناء قاعدة بيانات واسعة النطاق وعالية الجودة. يصف القسم 3 كيفية بناء ImageNet بالاستفادة من Amazon Mechanical Turk.

2. خصائص ImageNet

نُظمت ImageNet بناء على البنية الهرمية التي تقدمها WordNet. تهدف ImageNet عند اكتمالها، إلى احتواء ما يقارب 50 مليون صورة كاملة الدقة ومُصنفة بوضوح (500 - 1000) صورة لكل مجموعة مرادفات synset. تتكون ImageNet - حتى وقت كتابة هذه البحث - من 12 شجرة فرعية. ستعتمد معظم التحليلات في هذا البحث على شجرتين فرعيتين هما الثديات والمركبات.

النطاق تهدف ImageNet إلى توفير تغطية شاملة ومتنوعة لعالم الصور. تحتوي الاشجار الفرعية الـ 12 الحالية على إجمالي 3,2 مليون صورة معنونة بدقة، وموزعة على 5,247 صنف (الشكل 2). جمعنا - في المتوسط - أكثر من 600 صورة لكل مجموعة مفردات

المصدر

المراجع

Footnotes

  1. C. Fellbaum. WordNet: An Electronic Lexical Database. Bradford Books, 1998.