Abstract

The article is devoted to the review of conditional test generation, one of the most promising fields of natural language processing and artificial intelligence. Specifically, we explore monolingual local sequence transduction tasks: paraphrase generation, grammatical and spelling errors correction, text simplification. To give a better understanding of the considered tasks, we show examples of good rewrites. Then we take a deep look at such key aspects as publicly available datasets with the splits (training, validation, and testing), quality metrics for proper evaluation, and modern solutions based primarily on modern neural networks. For each task, we analyze its main characteristics and how they influence the state-of-the-art models. Eventually, we investigate the most significant shared features for the whole group of tasks in general and for approaches that provide solutions for them.

Highlights

  • Стаття присвячена огляду задач умовної генерації тексту: перефразування, виправлення граматичних та орфографічних, спрощення тексту

  • The article is devoted to the review of conditional test generation, one of the most promising fields of natural language processing and artificial intelligence

  • To give a better understanding of the considered tasks, we show examples of good rewrites

Read more

Summary

Review of neural approaches for conditional text generation

Стаття присвячена огляду задач умовної генерації тексту: перефразування, виправлення граматичних та орфографічних, спрощення тексту. Розглядаються джерела тренувальних даних, метрики оцінки якості роботи систем та сучасні нейромережеві підходи для розв’язання таких задач. Ключові слова: обробка природної мови, нейронні мережі, машинне навчання, умовна генерація тексту, перефразування, виправлення граматичних помилок, спрощення тексту. У цій роботі досліджується поточний стан деяких задач умовної генерації тексту (англійською мовою), а саме перефразування, виправлення граматичних та орфографічних помилок, спрощення тексту. Для перефразування існує відносно велика кількість джерел даних різної якості та різного рівня (словосполучення, речення, абзаци). BLEU обчислюється наступним чином: для кожного n ∈ [1, 2, 3, 4] рахуємо частку n-грам у реченнікандидаті, які потрапляють у розмічене (правильне) речення і усереднюємо отримані числа. З передбачених “сусідів” береться випадковим чином підмножина слів, яка й використовується для передбачення цільового речення.

Виправлення граматичних та орфографічних помилок
Порівняльний аналіз

Talk to us

Join us for a 30 min session where you can share your feedback and ask us any queries you have

Schedule a call

Disclaimer: All third-party content on this website/platform is and will remain the property of their respective owners and is provided on "as is" basis without any warranties, express or implied. Use of third-party content does not indicate any affiliation, sponsorship with or endorsement by them. Any references to third-party content is to identify the corresponding services and shall be considered fair use under The CopyrightLaw.