الاهتمام هو كل ما نحتاجه ←

الخلاصة

تعتمد نماذج تحويل السلاسل التقليدية على الشبكات العصبية التكرارية المعقدة أو الشبكات الالتفافية التي تحتوي على مُرمِّز وفاك ترميز. تربط النماذج الأعلى أداءً هذين المكوّنين عبر آلية الانتباه. يقترح الباحثون في هذه الورقة بنية شبكية جديدة وبسيطة، تُسمّى المحوّل، تعتمد كليًا على آليات الانتباه دون أي حاجة إلى التكرار أو الالتفاف. أظهرت التجارب على مهمّتَي الترجمة الآلية تفوّق هذا النموذج من حيث جودة المخرجات، إضافةً إلى كونه أكثر قابلية للمعالجة المتوازية، ويتطلّب زمنًا أقل بكثير للتدريب. وقد حقّق المحول نتيجة بلغت 28.4 على مقياس التقييم ثنائي اللغة في مهمّة الترجمة من الإنجليزية إلى الألمانية ضمن مجموعة بيانات ورشة عمل الترجمة الآلية لعام 2014، متجاوزًا أفضل النتائج السابقة، بما في ذلك نتائج النماذج المجمّعة، بفارق نقطتين على مقياس التقييم المذكور. وحقّق المحوّل في مهمّة الترجمة من الإنجليزية إلى الفرنسية على مجموعة البيانات ذاتها نتيجة متقدمة لنموذج منفرد بلغت 41.8، وذلك بعد تدريب استمر 3.5 أيام فقط على ثماني وحدات معالجة رسومية. وتُعدّ كلفة الحوسبة هذه جزءًا يسيرًا مقارنةً بتكاليف تدريب أفضل النماذج الحالية المذكورة. وضح الباحثون أن نموذج المحول يمكن تعميمه بشكل جيد على مهام أخرى، إذ جرى تطبيقه بنجاح في تحليل التكوين اللغوي للغة الإنجليزية باستخدام بيانات تدريب واسعة وأخرى ومحدودة.

المقدمة

أصبحت الشبكات العصبية التكرارية، ولا سيما شبكات الذاكرة طويلة-قصيرة المدى ¹ والشبكات التكرارية ذات البوابات ²، من أحدث الأساليب في نمذجة السلاسل ومسائل التحويل، مثل نمذجة اللغة والترجمة الآلية ³ ⁴ ⁵. ومنذ ذلك الحين، تتواصل الجهود لتوسيع آفاق نماذج اللغة المتكررة وهياكل الترميز وفكه ⁶ ⁷ ⁸. تقسّم النماذج التكرارية عمليات الحوسبة تبعاً لمواقع الرموز في سلاسل الدخل والخرج. وبمواءمة تلك المواقع مع خطوات الحوسبة المتعاقبة، تنتج هذه النماذج تسلسلاً من الحالات المخفية $h_t$ بوصفها دالة تعتمد على كلٍ من الحالة المخفية السابقة $h_{t-1}$ ، ومدخلات الموقع $t$ . تُعيق هذه الطبيعة المتسلسلة المتأصّلة إمكانية إجراء حوسبة متوازية لعينات التدريب، وهو أمر بالغ الأهمية عند التعامل مع السلاسل الطويلة، حيث تفرض قيود الذاكرة حدودًا على حجم الدفعات الممكن معالجتها. وقد حققت الدراسات الحديثة تحسينات ملحوظة في كفاءة الحوسبة عبر حيل التقسيم ⁹ والحوسبة المشروطة ¹⁰، مع تسجيل مكاسب في الأداء في الحالة الأخيرة. ومع ذلك، يبقى القيد الجوهري للحوسبة المتسلسلة قائماً. أصبحت آليات الإنتباه عنصراً أساسياً في نماذجة سلاسل البيانات ونماذج التحويل عبر طيف واسع من المهام، إذ تسمح بنمذجة الإعتماديات بين الرموز بغضّ النظر عن بَعدها في سلاسل الدخل أو الخرج ⁴ ¹¹. ومع ذلك تَستخدم هذه الآليات في جميع الحالات تقريباً ¹² بوصفها مكملاً للشبكات العصبية التكرارية وليس بديلاً عنها. يقترح الباحثون في هذه الورقة نموذج المحول بوصفه بنية تتخلّى بالكامل عن الشبكات التكرارية، وتعتمد كلياً على آليات الانتباه لاستخلاص العلاقات الشمولية بين سلاسل الدخل وسلاسل الخرج. يتيح نموذج المحول درجة عالية جداً من الحوسبة المتوازية، ما يمكنه من تحقيق مستوى جديد من الجودة في الترجمة بعد تدريب لا يتجاوز أثنتي عشرة ساعة على ثماني وحدات معالجة رسومية.

المراجع

Sepp Hochreiter and Jürgen Schmidhuber. Long short-term memory. Neural computation, 9(8):1735–1780, 1997. ↩
Junyoung Chung, Çaglar Gülçehre, Kyunghyun Cho, and Yoshua Bengio. Empirical evaluation of gated recurrent neural networks on sequence modeling. CoRR, abs/1412.3555, 2014. ↩
Ilya Sutskever, Oriol Vinyals, and Quoc VV Le. Sequence to sequence learning with neural networks. In Advances in Neural Information Processing Systems, pages 3104–3112, 2014. ↩
Dzmitry Bahdanau, Kyunghyun Cho, and Yoshua Bengio. Neural machine translation by jointly learning to align and translate. CoRR, abs/1409.0473, 2014. ↩ ↩²
Kyunghyun Cho, Bart van Merrienboer, Caglar Gulcehre, Fethi Bougares, Holger Schwenk, and Yoshua Bengio. Learning phrase representations using rnn encoder-decoder for statistical machine translation. CoRR, abs/1406.1078, 2014. ↩
Yonghui Wu, Mike Schuster, Zhifeng Chen, Quoc V Le, Mohammad Norouzi, Wolfgang Macherey, Maxim Krikun, Yuan Cao, Qin Gao, Klaus Macherey, et al. Google’s neural machine translation system: Bridging the gap between human and machine translation. arXiv preprint arXiv:1609.08144, 2016. ↩
Minh-Thang Luong, Hieu Pham, and Christopher D Manning. Effective approaches to attention based neural machine translation. arXiv preprint arXiv:1508.04025, 2015. ↩
Rafal Jozefowicz, Oriol Vinyals, Mike Schuster, Noam Shazeer, and Yonghui Wu. Exploring the limits of language modeling. arXiv preprint arXiv:1602.02410, 2016. ↩
Oleksii Kuchaiev and Boris Ginsburg. Factorization tricks for LSTM networks. arXiv preprint arXiv:1703.10722, 2017. ↩
Noam Shazeer, Azalia Mirhoseini, Krzysztof Maziarz, Andy Davis, Quoc Le, Geoffrey Hinton, and Jeff Dean. Outrageously large neural networks: The sparsely-gated mixture-of-experts layer. arXiv preprint arXiv:1701.06538, 2017. ↩
Yoon Kim, Carl Denton, Luong Hoang, and Alexander M. Rush. Structured attention networks. In International Conference on Learning Representations, 2017. ↩
Ankur Parikh, Oscar Täckström, Dipanjan Das, and Jakob Uszkoreit. A decomposable attention model. In Empirical Methods in Natural Language Processing, 2016. ↩

الاهتمام هو كل ما نحتاجه ←

الخلاصة

المقدمة

المراجع

Footnotes