Abstract
The article is devoted to the review of conditional test generation, one of the most promising fields of natural language processing and artificial intelligence. Specifically, we explore monolingual local sequence transduction tasks: paraphrase generation, grammatical and spelling errors correction, text simplification. To give a better understanding of the considered tasks, we show examples of good rewrites. Then we take a deep look at such key aspects as publicly available datasets with the splits (training, validation, and testing), quality metrics for proper evaluation, and modern solutions based primarily on modern neural networks. For each task, we analyze its main characteristics and how they influence the state-of-the-art models. Eventually, we investigate the most significant shared features for the whole group of tasks in general and for approaches that provide solutions for them.
Highlights
Стаття присвячена огляду задач умовної генерації тексту: перефразування, виправлення граматичних та орфографічних, спрощення тексту
The article is devoted to the review of conditional test generation, one of the most promising fields of natural language processing and artificial intelligence
To give a better understanding of the considered tasks, we show examples of good rewrites
Summary
Стаття присвячена огляду задач умовної генерації тексту: перефразування, виправлення граматичних та орфографічних, спрощення тексту. Розглядаються джерела тренувальних даних, метрики оцінки якості роботи систем та сучасні нейромережеві підходи для розв’язання таких задач. Ключові слова: обробка природної мови, нейронні мережі, машинне навчання, умовна генерація тексту, перефразування, виправлення граматичних помилок, спрощення тексту. У цій роботі досліджується поточний стан деяких задач умовної генерації тексту (англійською мовою), а саме перефразування, виправлення граматичних та орфографічних помилок, спрощення тексту. Для перефразування існує відносно велика кількість джерел даних різної якості та різного рівня (словосполучення, речення, абзаци). BLEU обчислюється наступним чином: для кожного n ∈ [1, 2, 3, 4] рахуємо частку n-грам у реченнікандидаті, які потрапляють у розмічене (правильне) речення і усереднюємо отримані числа. З передбачених “сусідів” береться випадковим чином підмножина слів, яка й використовується для передбачення цільового речення.
Talk to us
Join us for a 30 min session where you can share your feedback and ask us any queries you have
More From: Bulletin of Taras Shevchenko National University of Kyiv. Series: Physics and Mathematics
Disclaimer: All third-party content on this website/platform is and will remain the property of their respective owners and is provided on "as is" basis without any warranties, express or implied. Use of third-party content does not indicate any affiliation, sponsorship with or endorsement by them. Any references to third-party content is to identify the corresponding services and shall be considered fair use under The CopyrightLaw.