شبكة الصور الهرمية واسعة النطاق

الخلاصة

قدم الانفجار الهائل في عدد الصور المتاح على الإنترنت إمكانية تطوير نماذج وخوارزميات متطورة وقوية لفهرسة واسترجاع وتنظيم الصور وبيانات الوسائط المتعددة والتفاعل معها.

إلا أن كيفية تسخير وتنظيم هذه البيانات لا تزال تُمثل مشكلةً حرجة.

تُقدم هذه الورقة قاعدة بيانات جديدة تُسمى شبكة الصور، كهيكل مفاهيم واسع النطاق من الصور المبني على اساس شبكة الكلمات.

تهدف شبكة الصور إلى ملء غالبية مجموعات المرادفات التي تقدمها شبكة الكلمات، والبالغ عددها 80,000، بصور نقية وكاملة الدقة بمتوسط ​​يتراوح بين 500 و1000.

سيؤدي ذلك إلى عشرات الملايين من الصور المعنونة، والمُرتبة حسب التسلسل الهرمي الدلالي لـ شبكة الكلمات.

تُقدم هذه الورقة تحليلًا مُفصلًا لـ شبكة الصور في حالتها الحالية: المؤلفة من 12 شجرة فرعية تحتوي على 5247 مجموعة مرادفات و3.2 مليون صورة إجمالًا.

وضح الباحثون أن شبكة الصور أكبر حجمًا وتنوعًا، وأكثر دقةً من مجموعات الصور الحالية.

وحيث أن إنشاء قاعدة بيانات ضخمة كهذه مهمةً صعبة.

فسيشرح الباحثون آلية جمع البيانات باستخدام Amazon Mechanical Turk.

وأخيرًا، سيوضحون فائدة شبكة الصور من خلال ثلاثة تطبيقات بسيطة في التعرف على الكائنات، وتصنيف الصور، وتجميع الكائنات تلقائيًا.

يأمل الباحثون أن يُتيح حجم شبكة الصور ودقتها وتنوعها وبنيتها الهرمية فرصًا لا مثيل لها للباحثين في مجال الرؤية الحاسوبية ومجالات أخرى.

المصطلحات التأسيسية

شبكة الصور شبكة الكلمات هيكل مفاهيم مجموعة مرادفات شجرة فرعية

1. مقدمة

جاء العصر الرقمي بطفرة هائلة في البيانات.

حيث تشير أحدث التقديرات إلى وجود أكثر من 3 مليارات صورة على فليكر، وعدد مماثل من مقاطع الفيديو على يوتيوب، وعدد أكبر من الصور على محرك بحث الصور من قوقل.

يُمكن تطوير نماذج وخوارزميات أكثر تطورًا وقوة من سابقاتها باستغلال هذا العدد الهائل من الصور، وإنتاج تطبيقات أفضل لفهرسة هذه البيانات واسترجاعها وتنظيمها والتفاعل معها.

تبقى كيفية الاستفادة من هذه البيانات وتنظيمها مشكلة لم تُحل بعد.

يقدم الباحثون في هذه الورقة شبكة الصور كقاعدة بيانات صور جديدة، وهيكل مفاهيم واسع للصور.

ويعتقد الباحثون أن هيكل مفاهيم الواسع للصور يُعد موردًا بالغ الأهمية لتطوير خوارزميات متقدمة وواسعة النطاق للبحث عن الصور وفهمها بناء على محتواها، بالإضافة إلى توفير بيانات تدريب وقياس أداء تلك الخوارزميات.


تستخدم شبكة الصور البنية الهرمية شبكة الكلمات1.

حيث يُطلق على كل مفهوم ذي معنى في شبكة الكلمات، والذي ربما يتم وصفه بكلمات أو عبارات متعددة، اسم مجموعة مرادفات.

تحتوي شبكة الكلمات على حوالي 80,000 مجموعة مرادفات اسمية.

يهدف الباحثون في هذه الورقة لتوفير ما متوسطه 500-1000 صورة لكل مجموعة مرادفات.

تُراقب جودة صور كل مفهوم ويتم شرحها بواسطة إنسان كما هو موضح في القسم 3.2.

وستوفر شبكة الصور بذلك، عشرات الملايين من الصور المرتبة بشكل نظيف.

يقدم الباحثون في هذه الورقة، الإصدار الحالي من شبكة الصور، والذي يتكون من 12 "شجرة فرعية": لـ الثدييات والطيور والأسماك والزواحف والبرمائيات والمركبات والأثاث والآلات الموسيقية والتكوينات الجيولوجية والأدوات والزهور والفواكه.

تحتوي هذه الأشجار الفرعية على 5,247 مجموعة مرادفات و3.2 مليون صورة.

يوضح الشكل 1 لقطة لفرعين من الأشجار الفرعية الثدييات والمركبات.

أتاح الباحثون قاعدة البيانات للعامة على التالي.


رتب الباحثون ما تبقى من هذه الورقة على النحو التالي: أولاً: (القسم 2) يبين شبكة الصور كقاعدة بيانات صور واسعة النطاق ودقيقة ومتنوعة.

وفي القسم 4، يُقدِّم الباحثون بعض الأمثلة التطبيقية البسيطة من خلال استغلال شبكة الصور الحالية، وخاصةً الأشجار الفرعية للثدييات والمركبات.

بهدف إثبات أن شبكة الصور تُشكل موردًا مفيدًا لتطبيقات التعرّف البصري، مثل التعرّف على الكائنات وتصنيف الصور وتحديد مواقعها.

بالإضافة إلى أن بناء قاعدة بيانات واسعة النطاق وعالية الجودة، لم يعد ممكناً بالاعتماد على أساليب جمع البيانات التقليدية.

يصف القسم 3 كيفية بناء شبكة الصور بالاستفادة من Amazon Mechanical Turk.

2. خصائص شبكة الصور

بُنيت شبكة الصور على النية الهرمية التي تقدمها شبكة الكلمات.

وتهدف للصول إلى ما يقارب 50 مليون صورة، عند اكتمالها، كاملة الدقة ومُعنونة بوضوح، على أن تحتوي كل مجموعة مرادفات مابين 500 و 1000 صورة.

تتكون شبكة الصور حتى وقت كتابة هذه الورقة من 12 شجرة فرعية.

ستعتمد معظم التحليلات في هذا البحث على شجرتين فرعيتين هما الثديات والمركبات.


النطاق

تهدف شبكة الصور إلى توفير تغطية شاملة ومتنوعة لعالم الصور.

تحتوي الاشجار الفرعية الـ 12 الحالية على إجمالي 3.2 مليون صورة معنونة بدقة، وموزعة على 5,247 صنف (الشكل 2).

جمعنا - في المتوسط - أكثر من 600 صورة لكل مجموعة مفردات.

يوضح الشكل 2 توزيع عدد الصور لكل مجموعة مرادفات في شبكة الصور الحالية2.

تُعد هذه أكبر مجموعة بيانات صور مُوَصّفة متاحة لمجتمع أبحاث الرؤية الحاسوبية، حسب علم الباحثين، من حيث العدد الإجمالي للصور، وعدد الصور لكل فئة، بالإضافة إلى عدد الفئات3.

الشكل 1: لقطة لشجرتين فرعييتين من شبكة الصور من الجذر إلى الأوراق: الصف العلوي من الشجرة الفرعية للثدييات، والصف السفلي من الشجرة الفرعية للمركبات. تعرض 9 صور مختارة عشوائياً لكل مجموعة مرادفات.

الشكل 1: لقطة لشجرتين فرعييتين من شبكة الصور من الجذر إلى الأوراق: الصف العلوي من الشجرة الفرعية للثدييات، والصف السفلي من الشجرة الفرعية للمركبات.

تعرض 9 صور مختارة عشوائياً لكل مجموعة مرادفات.


الشكل 2: نطاق شبكة الصور. يوضح المنحنى الأحمر في رسم بياني عدد الصور لكل مجموعة مرادفات.

الشكل 2: نطاق شبكة الصور. يوضح المنحنى الأحمر في رسم بياني عدد الصور لكل مجموعة مرادفات.

حوالي 20% من مجموعات المرادفات تحتوي على عدد قليل جدًا من الصور.

أكثر من 50% من مجموعات المرادفات تحتوي على أكثر من 500 صورة.

يلخص الجدول الأشجار الفرعية مختارة.

للاطلاع على الإحصائيات الكاملة والمحدثة، تفضل بزيارة الموقع.


الشكل 3: مقارنة بين شجرتي "القطط" و"الماشية" الفرعيتين في لعبة ESP [25] وشبكة الصور.

الشكل 3: مقارنة بين شجرتي "القطط" و"الماشية" الفرعيتين في لعبة ESP 4 وشبكة الصور.

يتناسب حجم العقدة في كل شجرة مع عدد الصور التي تحتويها.

ويُظهر الشكل عدد الصور لأكبر عقدة في كل شجرة.

أما العقد المشتركة بين شجرة ESP وشجرة شبكة الصور فهي مُلوّنة باللون الأحمر.

المصدر

المراجع

Footnotes

  1. C. Fellbaum. WordNet: An Electronic Lexical Database. Bradford Books, 1998.

  2. حوالي 20% من مجموعات المرادفات تحتوي على عدد قليل جداً من الصور، إما بسبب قلة الصور المتاحة على الإنترنت، مثل "خفاش مسائي"، أو لصعوبة توضيح مجموعة المرادفات بالصور، مثل "حصان عمره سنتين".

  3. تزعم لعبة ESP أنها قد صنفت عدداً كبيراً جداً من الصور، ولكن جزء صغير حوالي 60 ألف صورة فقط متاحة للعامة.

  4. L. von Ahn and L. Dabbish. Labeling images with a computer game. In CHI04, pages 319–326, 2004.