ВИКОРИСТАННЯ ЦИФРОВИХ ТЕХНОЛОГІЙ ДЛЯ ВИПРАВЛЕННЯ ГРАМАТИЧНИХ ПОМИЛОК: СИНТАКСИЧНІ N-ГРАМИ ТА МЕТОДИ ГЛИБИННОГО НАВЧАННЯ

Автор(и)

  • Олена Олександрівна ПОЖАРИЦЬКА Одеський національний університет ім. І. І. Мечникова, Ukraine https://orcid.org/0000-0003-4820-8129
  • Кирило Володимирович ТРОЇЦЬКИЙ Одеський національний університет ім. І. І. Мечникова, Ukraine https://orcid.org/0000-0002-3395-2724

DOI:

https://doi.org/10.18524/2307-4558.2021.35.237789

Ключові слова:

синтаксичні n-грами, комп’ютерна лінгвістика, виправлення граматичних помилок, трансформер, системи, засновані на правилах, методи глибинного навчання

Анотація

 Об’єкт статті — автоматизоване виправлення граматичних помилок як галузь лінгвістики. Предмет статті — різноманітність методів та технологій, які використовуються у виправленні граматичних помилок, а також можливості їх використання та оцінка. У статті розглянуто найбільш продуктивні методи, що застосовуються у галузі виявлення та виправлення граматичних помилок в комп’ютерній лінгвістиці. Мета статті полягає у маніфестації ефективності застосування комп’ютерних програм задля виявлення граматичних помилок в англомовному тексті. Дослідницькі методи, використані у статті: аналіз данних, опис абстрактних комп’ютерних моделей та спостереження над їх продуктивністю. У статті розглянуто комп’ютерну модель для виявлення та визначення граматичних помилок, засновану на синтаксичних n-грамах, дано її визначення, описано шляхи її реалізації та етапи попередньої обробки даних, необхідні для роботи моделі. Встановлено, що конкретними типами помилок, які залучена комп’ютерна модель може виявити, є помилки підмето-присудкового узгодження, помилки у виборі прийменника, числа іменників, а також деякі типи помилок, пов’язані з використанням артиклю. Також у статті проаналізовано іншу модель, засновану на архітектурі трансформера — GECToR (Grammatical Error Correction: Tag, Not Rewrite). Ця модель глибинного навчання спрямована на виявлення та виправлення набагато складніших помилок, у тому числі тих, що пов’язані з екстралінгвістичними реаліями. Крім того, вона є доволі корисною, оскільки, на відміну від інших моделей, які просто коригують неправильні слова без пояснень, GECToR призначає теги, які можна додатково інтерпретувати для навчальних цілей. У процесі аналізу зроблено висновок про переваги та недоліки розглянутих моделей та методів, що були виявлені після їх практичної реалізації. Під час оцінки продуктивності вищезазначених моделей на основі спільного завдання BEA 2019 були отримані наступні результати: модель, заснована на синтаксичних n-грамах, отримала показник F0,5 7,6 %, а оцінка F0,5 моделі GECToR визначила її ефективність як 66,7 %. Отримані дані свідчать про майже дев’ятикратну перевагу ефективності методів глибинного навчання (типу GECToR) порівняно з методами, заснованими на правилах (типу методу синтаксичних n-грамів).

Посилання

Bryant C., Felice M., Briscoe T. Automatic annotation and evaluation of error types for grammatical error correction. Proceedings of the 55th Annual Meeting of the Association for Computational Linguistics, vol. 1. Vancouver, Canada: Long Papers, 2017.

Bryant C., Felice M., Andersen Ø. E., and Briscoe T. The BEA-2019 Shared Task on Grammatical Error Correction. Proceedings of the 14th Workshop on Innovative Use of NLP for Building Educational Applications (BEA-2019). Florence, Italy: Association for Computational Linguistics, 2019, pp. 52–75.

Devlin J., Ming-Wei Chang, Lee K., Toutanova K. BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding, 2019, 16 p.

Explosion. (2016). SpaCy: Industrial-Strength Natural Language Processing. [Online] Available: https://spacy.io/

Jurafsky D., James H. Speech and Language Processing. An Introduction to Natural Language Processing, Computational Linguistics, and Speech Recognition. Draft of December 30, 2020, 623 p. [Online]. Available: https://web. stanford.edu/~jurafsky/slp3/ed3book.pdf.

Leacock C., Gamon M., Brockett C. User Input and Interactions on Microsoft Research ESL Assistant. Proceedings of the Fourth Workshop on Innovative Use of NLP for Building Educational Applications. Boulder, Colorado: Association for Computational Linguistics, 2009.

Tesnière L. Éléments de syntaxe structurale. Paris, France: Klincksieck, 1976, 674 p.

Морозова И. Б. Элементарная структура предикации как основа определения грамматического статуса предложения. Modern researches in philological sciences : сollective monograph. Riga : Izdevnieciba “Baltija Publishing”, 2020, pp. 200‒217.

Omelianchuk K., Atrasevych V., Chernodub A. and Skurzhanskyi O. GECToR — Grammatical Error Correction: Tag, Not Rewrite, 2020, 8 p. [Online] Available: https://arxiv.org/abs/2005.12592

Rauf, S., Saeed, R., Khan, N. S., Habib, K., Gabrail, P. and Aftab, F. Automated Grammatical Error Correction: A Comprehensive Review. NUST Journal of Engineering Sciences, vol. 10, 2017.

Sidorov G., Gupta A., Tozer M., Català D., Catena A. and Fuentes S. Rule-based System for Automatic Grammar Correction Using Syntactic N-grams for English Language Learning (L2). CoNLL Shared Task, 2013, pp. 96–101.

Vaswani, A. et al. Attention is All You Need, 2017, 15 p. [Online]. Available: https://arxiv.org/abs/1706.03762

Zheng Y. Grammatical error correction in non-native English. Cambridge, United Kingdom: Cambridge University Press, 2017, 145 p.

##submission.downloads##

Опубліковано

2021-07-29

Номер

Розділ

ПИТАННЯ ПЕРЕКЛАДОЗНАВСТВА ТА МЕТОДИКИ ВИКЛАДАННЯ МОВИ