المجزئ الجغرافي: ضبط نموذج تجزئة أي شيء ذو التلقينات متعددة الوسائط لتجزئة البنية التحتية للتنقل

الملخص

يُقيد الأداء في مجال تجزئة الصور الجغرافية غالبًا بمحدودية بيانات التدريب ونقص القدرة على التعميم، لا سيما عند تجزئة البنية التحتية للمواصلات كالشوارع والأرصفة وممرات المشاة.

وقد أظهرت نماذج الرؤية الأساسية، مثل نموذج التجشئة المُدرّب مسبقًا على ملايين الصور الطبيعية، أداءً مذهلاً في التجزئة بدون مثال، مما يُقدّم حلاً واعدًا.

لكن، يُواجه نموذج التجشئة صعوبةً في التعامل مع الصور الجغرافية، كصور الأقمار الصناعية والصور الجوية، نظرًا لاقتصار تدريب النموذج على الصور الطبيعية، وتداخل ملامح الأجسام وقوامها من الفضاء مع محيطها.

يقترح الباحثون في هذه الورقة لمعالجة هذه التحديات، نموذج التجشئة الجغرافي، كإطار عمل قائم على نموذج تجشئة بأداء محسن باستخدام تلقينات متعددة الوسائط مولدة تلقائياً.

يدمج نموذج التجشئة الجغرافي التلقينات النقطية من نموذج مُدرّب مسبقًا خاص لهذه المهمة كدليل بصري أساسي، مع تلقينات نصية مُولّدة بواسطة نموذج لغوي كبير كدليل دلالي ثانوي، مما يُمكّن النموذج من استيعاب كلٍ من البنية المكانية والمعنى السياقي بشكل أفضل.

يتفوق نموذج التجشئة الجغرافي على الأساليب الحالية في تجزئة بنية النقل التحتية في المناطق المألوفة وغير المألوفة بنسبة لا تقل عن 5% في مؤشر متوسط التقاطع على الاتحاد، مما يمثل قفزة نوعية في الاستفادة من النماذج الأساسية لتجزئة البنية التحتية للتنقل، بما في ذلك الطرق وممرات المشاة في الصور الجغرافية.

تم نشر كود النموذج للعموم هنا.

المقدمة

ركزت الكثير من الأبحاث 1 2 3 4 5 على تجزئة البنية التحتية للطرق من الصور الجغرافية وصور الاستشعار عن بُعد، مثل الصور الجوية والفضائية، إلا أن البنية التحتية للمشاة، كالأرصفة وممرات عبور المشاة، لم تحظَ إلا باهتمام ضئيل نسبياً، رغم أهميتها في الحياة اليومية.

انصبّت الجهود البحثية تاريخياً على مساعدة السائقين في التنقل في الغالب بدلاً من مساعدة المشاة 6.

تستخدم دراسات إمكانية الوصول الحالية غالباً بيانات طرق مبسطة، ونعلم أن التجزئة الدقيقة لبنية المشاة التحتية تُسهم في الكشف بشكل أفضل عن الطرق والوجهات المُيسّرة، لا سيما للأشخاص ذوي الإعاقة.


تجزئة البنية التحتية للتنقل: (أ) تحتاج النماذج التقليدية إلى مجموعات بيانات كبيرة خاصة بكل مهمة، (ب) وتواجه صعوبة في التعامل مع الكائنات الضيقة ذات النسيج المتشابه، مما ينتج عنه نتائج دون المستوى المطلوب. ويحقق ضبط نموذج أساسي قابل للتلقين باستخدام بيانات وتوجيهات محدودة أداءً مماثلاً.

الشكل: 1 تجزئة البنية التحتية للتنقل: (أ) تحتاج النماذج التقليدية إلى مجموعات بيانات كبيرة خاصة بكل مهمة، (ب) وتواجه صعوبة في التعامل مع الكائنات الضيقة ذات النسيج المتشابه، مما ينتج عنه نتائج دون المستوى المطلوب.

ويحقق ضبط نموذج أساسي قابل للتلقين باستخدام بيانات وتوجيهات محدودة أداءً مماثلاً.



اعتمدت تاريخياً تجزئة البنية التحتية للتنقل بشكل أساسي على النماذج التقليدية، بما في ذلك الشبكات الطي العصبية 7 8 9 10 ونماذج مُحوّل الرؤية 11 12.

تتطلب تلك النماذج عادةً مجموعات كبيرة من الصور المعنونة يدوياً للتدريب الخاص بكل مهمة 6 13، وهو أمرٌ غالبًا ما يكون ترفًا لهذه المهام، كما أنها غالبًا ما تكون شديدة الحساسية للتغيرات في البيانات.

ولا يزال نقص مجموعات البيانات المعنونة بجودة عالية يمثل تحديًا كبيرًا، لا سيما في سياق البنية التحتية للتنقل، مما يحد من قابلية التوسع والتكيف مع المهام المتنوعة.


تفشل النماذج التقليدية غالبًا، عند تدريبها على مجموعات بيانات محدودة ومتجانسة (الشكل 1a)، في التمييز بين الفئات الدقيقة (مثل الأرصفة والطرق)، والتي تُظهر اختلافات بصرية دقيقة (مثل الحدود الرقيقة، والنسيج المتشابه، والحجب المتكرر) (الشكل 1b).

اوة على ذلك، فإن ما تعلمته تلك النماذج من تمثيلات للكائنات والأجسام عادةً ما تكون خاصة بمجال معين، ما يؤدي إلى ضعف التعميم عند استخدامها في مناطق غير مرئية أو مجموعات بيانات ذات خصائص بصرية مختلفة.

وحتى التحولات الطفيفة في توزيع البيانات، مثل الانتقال من منطقة جغرافية إلى أخرى، غالبًا ما تؤدي إلى تدهور كبير في الأداء.

تُقدم - في المقابل - نماذج الرؤية الأساسية، المُدربة مسبقًا بشكل مستقل عن المهمة على توزيعات صور متنوعة وواسعة النطاق 14 15، بديلاً واعدًا بقدرة تعميم فائقة (عبر مجالات متنوعة).

تتكيف هذه النماذج مع المهام اللاحقة الجديدة (دون الحاجة إلى إعادة التدريب)، معتمدةً على توجيهات المستخدم للإرشاد السياقي.

استفاد الباحثون في هذه الورقة من نموذج التجشئة (تجزئة أي شيء) 14، وهو نموذج رؤية أساسي قابل للتوجيه، للتغلب على قيود الأساليب التقليدية وتمكين التجزئة الفعالة للبنية التحتية للتنقل، حتى مع البيانات المعنونة المحدودة وعبر مناطق جغرافية متنوعة.


تتطلب الهياكل واسعة النطاق مكانيًا، كالشوارع والأرصفة، عادةً عدة محاولات متكررة لالتقاط امتدادها الكامل، على عكس الأجسام الصغيرة في الصور الطبيعية، حيث تكفي نقطة واحدة (مثلاً، على جسم حصان) للتجزئته.

هذه العملية مرهقة وعرضة للأخطاء غالباً، وحتى مع المحاولات المتعددة، سيواجه نموذج التجشئة بدون مثال صعوبة في مهام الاستشعار عن بعد نظراً لتدريبه المسبق على الصور الطبيعية، التي تفتقر إلى الهياكل الكبيرة ذات النسيج المتشابه الشائعة في البيانات الجغرافية 14.

نستطيع مع ذلك تكييف قدرة نموذج التجشئة على تجزئة الصور الجغرافية من خلال ضبطه بدقة على بيانات محدودة (أسفل الشكل 1)، ما يسمح له بتعلم أنماط خاصة بالمجال والحفاظ على فعاليته في ظل تغيرات التوزيع المكاني.

قدم الباحثون في هذه الورقة نموذج التجشئة الجغرافي بالاستفادة من تلك الميزة، وهو نموذج شامل مصمم لتجزئة البنية التحتية للتنقل من خلال تجزئة متعددة الفئات للطرق والنبية التحتية للمشاة.


يقترح الباحثون في هذه الورقة تقنية توليد النقاط الجغرافية لمعالجة التحديات السابقة، وهي تقنية تولد تلقينات نقطية آلياً للصور الجغرافية من نموذج مُدرَّب مسبقًا خاص بمجال الصور الجغرافي، وذلك لتوفير توجيه مكاني دقيق.

وتُكمَّل هذه التقنية بتلقينات نصية لتوضيح المعنى الدلالي وحل الغموض الكامن في التوجيه القائم على النقاط.

تلفت التلقينات النقطية تركيز النموذج على بكسلات مُحدَّدة، لكن غالباً ما ينتمي بكسل واحد على الصور إلى عدة كائنات.

فتأتي التلقينات النصية، والتي تحتوي على معلومات دلالية حول صنف الكائن، لتقدم فهماً أوسع للكائن محل الاهتمام 16.

يضمن هذا التصميم المتكامل توجيهًا هندسيًا دقيقًا من التلقينات النقطية وفهمًا سياقيًا أوسع من التلقينات النصية، ما يُحسِّن دقة التجزئة.


تضبط التلقينات متعددة الوسائط نموذج التجشئة من خلال وحدة فك التشفير.

قدم الباحثون في هذه الورقة المجشئ الجغرافي من خلال دمج الدقة المكانية (عبر التلقين النقطي على الصورة) والسياق المكاني (عبر التلقين النصي الذي يصف الكائن)، كنموذج التجشئة متكامل مُحسَّن لتجزئة الطرق والبنية التحتية للمشاة إلى فئات متعددة.

يتفوق المجشئ الجغرافي على الأساليب التقليدية القائمة على شبكات الطي العصبية 6 3 2، ليس فقط بتحسين دقة التجزئة، بل أيضًا بإظهار إمكانية دمج اللغة الطبيعية والتفاعل المرئي ضمن النماذج الأساسية للصور الجغرافية.

تتلخص إسهامات الباحثون في ثلاثة جوانب: (1) الريادة في استخدام المجشئ لتجزئة البنية التحتية للتنقل إلى فئات متعددة، من خلال دمج التلقينات النقطية والنصية في الصور الجغرافية.

(2) تقديم تقنيات ضبط النماذج وتوليد التلقينات تلقائيًا، والتي تجلب المعرفة المتخصصة من النماذج التقليدية إلى النماذج الأساسية عبر التلقينات متعددة الوسائط.

(3) إجراء تقييم شامل على مجموعات بيانات مدينتين، ما أظهر الأداء القوي لنموذج التجشئة الجغرافي وقابليته للتعميم عبر مواقع متنوعة.

المراجع

Footnotes

  1. X. Chen, Q. Sun,W. Guo, C. Qiu, and A. Yu. Ga-net: A geometry prior assisted neural network for road extraction. International Journal of Applied Earth Observation and Geoinformation, 114:103004, 2022.

  2. L. Zhou, C. Zhang, and M. Wu. D-linknet: Linknet with pretrained encoder and dilated convolution for high resolution satellite imagery road extraction. In Proceedings of the IEEE conference on computer vision and pattern recognition workshops, pages 182–186, 2018. 2

  3. C. Henry, S. M. Azimi, and N. Merkle. Road segmentation in sar satellite images with deep fully convolutional neural networks. IEEE Geoscience and Remote Sensing Letters, 15(12):1867–1871, 2018. 2

  4. A. Saha. Conducting semantic segmentation on landcover satellite imagery through u-net architectures. In Proceedings of the Future Technologies Conference, pages 758–764. Springer, 2022.

  5. P. Gudžius, O. Kurasova, V. Darulis, and E. Filatovas. Deep learning based object recognition in multispectral satellite imagery for real-time applications. Machine Vision and Applications, 32(4):98, 2021.

  6. M. Hosseini, A. Sevtsuk, F. Miranda, R. M. Cesar Jr, and C. T. Silva. Mapping the walk: A scalable computer vision approach for generating sidewalk network datasets from aerial imagery. Computers, Environment and Urban Systems, 101:101950, 2023. 2 3

  7. K. Sun, B. Xiao, D. Liu, and J. Wang. Deep high-resolution representation learning for human pose estimation. In Proceedings of the IEEE/CVF conference on computer vision and pattern recognition, 2019.

  8. Z. Zhou, M. M. Rahman Siddiquee, N. Tajbakhsh, and J. Liang. Unet++: A nested u-net architecture for medical image segmentation. In Deep Learning in Medical Image Analysis and Multimodal Learning for Clinical Decision Support, pages 3–11. Springer, 2018.

  9. F. Isensee, P. F. Jaeger, S. A. Kohl, J. Petersen, and K. H. Maier-Hein. nnu-net: a self-configuring method for deep learning-based biomedical image segmentation. Nature methods, 18(2):203–211, 2021.

  10. O. Ronneberger, P. Fischer, and T. Brox. U-net: Convolutional networks for biomedical image segmentation. In Medical Image Computing and Computer-Assisted Intervention–MICCAI 2015. Springer, 2015.

  11. A. Hatamizadeh, V. Nath, Y. Tang, D. Yang, H. R. Roth, and D. Xu. Swin unetr: Swin transformers for semantic segmentation of brain tumors in mri images. In International MICCAI Brainlesion Workshop, pages 272–284. Springer, 2021.

  12. A. Dosovitskiy et al. An image is worth 16x16 words: Transformers for image recognition at scale. In ICLR, 2021.

  13. K. Cha, J. Seo, and T. Lee. A billion-scale foundation model for remote sensing images. IEEE Journal of Selected Topics in Applied Earth Observations and Remote Sensing, 2024.

  14. A. Kirillov, E. Mintun, N. Ravi, H. Mao, C. Rolland, L. Gustafson, T. Xiao, S. Whitehead, A. C. Berg, W.-Y. Lo, et al. Segment anything. In Proceedings of the IEEE/CVF International Conference on Computer Vision, pages 4015–4026, 2023. 2 3

  15. A. Radford, J. W. Kim, C. Hallacy, A. Ramesh, G. Goh, S. Agarwal, G. Sastry, A. Askell, P. Mishkin, J. Clark, et al. Learning transferable visual models from natural language supervision. In International conference on machine learning, pages 8748–8763. PMLR, 2021.

  16. Y. Yan, H. Wen, S. Zhong, W. Chen, H. Chen, Q. Wen, R. Zimmermann, and Y. Liang. Urbanclip: Learning text-enhanced urban region profiling with contrastive language-image pretraining from the web. In Proceedings of the ACM on Web Conference 2024, 2024.