Живой стилистический словарь русского языка. Лингвистический интернет-сервис
Индустриальные проекты
р.
р.
Актуальность В настоящее время существует острая необходимость автоматического решения многообразных задач в области Digital Humanities, связанных с обработкой текстов на ЕЯ, в том числе – переводом с одного языка на другой, поиском информации в текстовых массивах, извлечением информации из текстов, реферированием, корректировкой языковых навыков, обучением языку, повышением эффективности речи, контролем правильности и уместности словоупотребления, составлением текста с учетом языковых и стилистических норм языка. Решение этих задач невозможно без автоматической обработки и оперативной выдачи данных о стилистике и прагматике слов и устойчивых выражений языка. В 2018-2021 гг. проект осуществлялся при поддержке РФФИ (грант № 17-04-00421). Базовые идеи проекта и его текущие результаты апробированы в публикациях авторов концепции. Проблема До сих пор ни один лингвистический справочник в мире, в том числе Национальный корпус русского языка и все известные словари русского языка, не позволял получить полную информацию о стилистической окраске слова и выражения, которая формируется их актуальным употреблением. Стилистические пометы любого печатного словаря, пока его готовят, издают и переиздают, безнадежно устаревают и не отражают живых процессов в коммуникации. Впервые решить проблему автоматического получения и использования адекватной информации о стилистической окраске единиц языка может разрабатываемый электронный «Живой стилистический словарь русского языка» - https://livedict.syllabica.com/. Цель Цель проекта — разработка и создание уникального справочного и корректировочного веб-сервиса, позволяющего оперативно предоставлять пользователю объективную, актуальную, постоянно обновляемую стилистическую характеристику лексики и фразеологии современного русского языка в динамике ее социокультурного и эмоционально-оценочного употребления - автоматически формировать стилистический портрет русских слов и выражений, а также давать пользователю подсказки о доминирующей стилистической окраске текста и стилистической совместимости/несовместимости его единиц. Задачи В области лингвистического исследования и составления: пополнение и создание новых корпусов Словаря для автоматического получения полного стилистического портрета слова и устойчивого выражения в сегменте поэтической речи по всему спектру семантики (1000 текстов по каждому параметру); расширение стайлсет-базы для экспертно-составительской работы (500 единиц по каждому параметру). • В области IT: обновление технологической базы Словаря: внести корректировки в существующую систему обучения (классическую парадигму), оптимизация используемых ресурсов. Существующую систему адаптировать под произвольную структуру данных - под произвольное число классов, произвольную иерархию (задача выявления тональности текста); решить задачу иерархической сегментации. Исследовать использование иерархических лоссов. Добавить метрики, учитывающие иерархию классов при классификации. С учетом того, что существующий алгоритм для формирования ЖСС оказался слишком требователен для компьютера при увеличении обучающей базы данных, разработать, программировать и тестировть новую нейросеть, на основании итеративного метода тематического моделирования, что позволит провести обновление стилистического словаря. Результат Полнофункциональный веб-сервис Живой стилистический словарь русского языка для автоматического получения функционально-стилевого портрета слова и устойчивого выражения русского языка и полного стилистического портрета слова в сегменте поэтического корпуса. Сервис “Стилистический подсказчик” для получения пользователем подсказки о доминирующей стилистической окраске текста и стилистической совместимости/несовместимости его единиц при работе с любыми текстовыми данными. Партнёры проекта Институт русского языка им. В.В.Виноградова РАН ***