الاهتمام هو كل ما نحتاجه

الخلاصة

تعتمد نماذج تحويل السلاسل التقليدية على الشبكات العصبية التكرارية المعقدة أو شبكات طي تتضمن مُرمِّز وفاك ترميز. تربط النماذج الأعلى أداءً هذين المكوّنين عبر آلية الانتباه. يقترح الباحثون في هذه الورقة بنية شبكية جديدة وبسيطة، تُسمّى المحوّل، تعتمد كليًا على آليات الانتباه دون أي حاجة إلى التكرار أو الطي (الالتفاف). أظهرت التجربة على مهمّتَي ترجمة آلية تفوّق هذا النموذج من حيث جودة المخرجات، وقابليته للمعالجة المتوازية، وتطلّبه زمن تدريب أقل. وقد حقّق المحول نتيجة بلغت 28.4 على مقياس التقييم ثنائي اللغة في مهمّة الترجمة من الإنجليزية إلى الألمانية ضمن مجموعة بيانات ورشة عمل الترجمة الآلية لعام 2014، متجاوزًا أفضل النتائج السابقة، بما في ذلك نتائج النماذج المجمّعة، بفارق نقطتين على مقياس التقييم المذكور. وحقّق المحوّل في مهمّة الترجمة من الإنجليزية إلى الفرنسية على مجموعة البيانات ذاتها نتيجة متقدمة لنموذج منفرد بلغت 41.8، وذلك بعد تدريب استمر 3.5 أيام فقط على ثماني وحدات معالجة رسومية. تُعدّ كلفة الحوسبة تلك جزءًا يسيرًا مقارنةً بتكاليف تدريب أفضل النماذج الحالية. ووضح الباحثون أن نموذج المحول يمكن تعميمه بشكل جيد على مهام أخرى، إذ جرى تطبيقه بنجاح في تحليل التكوين اللغوي للغة الإنجليزية باستخدام بيانات تدريب واسعة وأخرى ومحدودة.

المصطلحات التأسيسية

نماذج تحويلمقياس التقييم ثنائي اللغةورشة عمل الترجمة الآلية لعام 2014النماذج المجمّعةالشبكات العصبية التكراريةشبكات الذاكرة طويلة-قصيرة المدىالشبكات التكرارية ذات البواباتالترميز وفكهالإنتباه

المقدمة

أصبحت الشبكات العصبية التكرارية، ولا سيما شبكات الذاكرة طويلة-قصيرة المدى1 والشبكات التكرارية ذات البوابات2، من أحدث الأساليب في نمذجة السلاسل ومسائل التحويل، مثل نمذجة اللغة والترجمة الآلية 3 4 5. ومنذ ذلك الحين، تتواصل الجهود لتوسيع آفاق نماذج اللغة المتكررة وهياكل الترميز وفكه6 7 8.
تقسّم النماذج التكرارية عمليات الحوسبة تبعاً لمواقع الرموز في سلاسل الدخل والخرج. وبمواءمة تلك المواقع مع خطوات الحوسبة المتعاقبة، تُنتج هذه النماذج تسلسلاً من الحالات المخفية hth_t كدالة تعتمد على كلٍ من الحالة المخفية السابقة ht1h_{t-1}، ومدخلات الموقع tt. تُعيق تلك الطبيعة المتسلسلة المتأصّلة إمكانية إجراء حوسبة متوازية لعينات التدريب، وهو أمر بالغ الأهمية عند التعامل مع السلاسل الطويلة، حيث تفرض قيود الذاكرة حدودًا على حجم الدفعات الممكن معالجتها. وقد حسّنت الدراسات الحديثة من كفاءة الحوسبة بشكل ملحوظ عبر حيل التقسيم 9 والحوسبة المشروطة 10، مع تسجيل مكاسب في الأداء في الحالة الأخيرة. ويبقى مع ذلك القيد الجوهري للحوسبة المتسلسلة قائماً.
أصبحت آليات الإنتباه جزء لا يتجزء من نماذج سلاسل البيانات ونماذج التحويل عبر طيف واسع من المهام، إذ تسمح بنمذجة الاعتماديات بين الرموز بغضّ النظر عن بُعدها في سلاسل الدخل أو الخرج 4 11. ومع ذلك تُستخدم آليّة الإنتباه في جميع الحالات تقريباً 12 بوصفها مكملاً للشبكات العصبية التكرارية وليس بديلاً عنها.
يقترح الباحثون في هذه الورقة نموذج المحول بوصفه بنية تتخلّى بالكامل عن الشبكات التكرارية، وتعتمد كلياً على آليات الانتباه لاستخلاص العلاقات الشمولية بين سلاسل الدخل وسلاسل الخرج. يُتيح نموذج المحول درجة عالية جداً من الحوسبة المتوازية، ما يمكنه من تحقيق مستوى جديد من الجودة في الترجمة بعد تدريب لا يتجاوز اثنتي عشرة ساعة على ثماني وحدات معالجة رسومية.

الخلفية

شكل هدف تقليل العمليات الحسابية التسلسلية أساسًا للنماذج وحدة المعالجة الرسومية العصبية الموسعة 13، وشبكة بايت 14، وطي سلسلة لسلسلة 15، تستخدم تلك النماذج شبكات الطي العصبية كحجر بناء أساسي، حيث تحسب التمثيلات المخفية بالتوازي لجميع مواضع الدخل والخرج. يزداد عدد العمليات اللازمة لربط الإشارات في تلك النماذج من موضعَي دخل أو خرج عشوائيين مع ازدياد المسافة بينهما، خطيًا في نموذج طي سلسلة لسلسلة ولوغاريتميًا في شبكة بايت. ما يجعل تعلم العلاقات بين المواضع البعيدة أكثر صعوبة 16. يُختزل عدد العمليات الحسابية في المحول إلى عدد ثابت، وإن كان ذلك على حساب انخفاض الدقة الفعالة نتيجةً لحساب متوسط ​​المواضع موزوناً بالانتباه، وهو تأثير عالجه الباحثون باستخدام آلية الانتباه متعدد الرؤوس كما هو موضح في القسم 3.2.
الانتباه الذاتي، يُسمى أحيانًا بالانتباه الداخلي، هو آلية انتباه تربط بين المواضع المختلفة لسلسلة واحدة بهدف حساب تمثيل لهذه السلسلة. وقد استُخدم الانتباه الذاتي بنجاح في مجموعة متنوعة من المهام، بما في ذلك فهم القراءة، والتلخيص التجريدي، والاستلزام النصي، وتعلم تمثيلات الجمل المستقلة عن المهمة 17 12 18 19.

المصدر

https://proceedings.neurips.cc/paper_files/paper/2017/file/3f5ee243547dee91fbd053c1c4a845aa-Paper.pdf

المراجع

Footnotes

  1. Sepp Hochreiter and Jürgen Schmidhuber. Long short-term memory. Neural computation, 9(8):1735–1780, 1997.

  2. Junyoung Chung, Çaglar Gülçehre, Kyunghyun Cho, and Yoshua Bengio. Empirical evaluation of gated recurrent neural networks on sequence modeling. CoRR, abs/1412.3555, 2014.

  3. Ilya Sutskever, Oriol Vinyals, and Quoc VV Le. Sequence to sequence learning with neural networks. In Advances in Neural Information Processing Systems, pages 3104–3112, 2014.

  4. Dzmitry Bahdanau, Kyunghyun Cho, and Yoshua Bengio. Neural machine translation by jointly learning to align and translate. CoRR, abs/1409.0473, 2014. 2

  5. Kyunghyun Cho, Bart van Merrienboer, Caglar Gulcehre, Fethi Bougares, Holger Schwenk, and Yoshua Bengio. Learning phrase representations using rnn encoder-decoder for statistical machine translation. CoRR, abs/1406.1078, 2014.

  6. Yonghui Wu, Mike Schuster, Zhifeng Chen, Quoc V Le, Mohammad Norouzi, Wolfgang Macherey, Maxim Krikun, Yuan Cao, Qin Gao, Klaus Macherey, et al. Google’s neural machine translation system: Bridging the gap between human and machine translation. arXiv preprint arXiv:1609.08144, 2016.

  7. Minh-Thang Luong, Hieu Pham, and Christopher D Manning. Effective approaches to attentionbased neural machine translation. arXiv preprint arXiv:1508.04025, 2015.

  8. Rafal Jozefowicz, Oriol Vinyals, Mike Schuster, Noam Shazeer, and Yonghui Wu. Exploring the limits of language modeling. arXiv preprint arXiv:1602.02410, 2016.

  9. Oleksii Kuchaiev and Boris Ginsburg. Factorization tricks for LSTM networks. arXiv preprint arXiv:1703.10722, 2017.

  10. Noam Shazeer, Azalia Mirhoseini, Krzysztof Maziarz, Andy Davis, Quoc Le, Geoffrey Hinton, and Jeff Dean. Outrageously large neural networks: The sparsely-gated mixture-of-experts layer. arXiv preprint arXiv:1701.06538, 2017.

  11. Yoon Kim, Carl Denton, Luong Hoang, and Alexander M. Rush. Structured attention networks. In International Conference on Learning Representations, 2017.

  12. Ankur Parikh, Oscar Täckström, Dipanjan Das, and Jakob Uszkoreit. A decomposable attention model. In Empirical Methods in Natural Language Processing, 2016. 2

  13. Samy Bengio Łukasz Kaiser. Can active memory replace attention? In Advances in Neural Information Processing Systems, (NIPS), 2016.

  14. Nal Kalchbrenner, Lasse Espeholt, Karen Simonyan, Aaron van den Oord, Alex Graves, and Koray Kavukcuoglu. Neural machine translation in linear time. arXiv preprint arXiv:1610.10099v2, 2017.

  15. Jonas Gehring, Michael Auli, David Grangier, Denis Yarats, and Yann N. Dauphin. Convolutional sequence to sequence learning. arXiv preprint arXiv:1705.03122v2, 2017.

  16. Sepp Hochreiter, Yoshua Bengio, Paolo Frasconi, and Jürgen Schmidhuber. Gradient flow in recurrent nets: the difficulty of learning long-term dependencies, 2001.

  17. Jianpeng Cheng, Li Dong, and Mirella Lapata. Long short-term memory-networks for machine reading. arXiv preprint arXiv:1601.06733, 2016.

  18. Romain Paulus, Caiming Xiong, and Richard Socher. A deep reinforced model for abstractive summarization. arXiv preprint arXiv:1705.04304, 2017.

  19. Zhouhan Lin, Minwei Feng, Cicero Nogueira dos Santos, Mo Yu, Bing Xiang, Bowen Zhou, and Yoshua Bengio. A structured self-attentive sentence embedding. arXiv preprint arXiv:1703.03130, 2017.