Разработка информационно-поисковой системы с анализом контента
Индустриальные проекты
р.
р.
Актуальность Современное информационное пространство характеризуется высокой скоростью генерации контента и значительным объемом неструктурированных данных, особенно в сфере новостей. Оперативное извлечение значимой информации из открытых источников — один из ключевых факторов для принятия стратегических решений в условиях быстро меняющейся политической и экономической ситуации. Организации, обладающие инструментами автоматического мониторинга и анализа новостей, получают конкурентное преимущество за счёт раннего выявления рисков, угроз и возможностей, своевременно реагируя на изменяющуюся ситуацию в мире Проблема Без автоматизированных решений анализ новостного фона требует значительных временных и человеческих ресурсов, при этом сохраняется высокий риск упущения критически важных сигналов. Ручной мониторинг не масштабируется и не обеспечивает своевременного реагирования. Также отсутствует единый инструмент, который бы агрегировал новостные статьи, выделение сущностей (персон и организаций), кросс-анализ с открытыми источниками и оценку рисков с учётом заданных критериев Цель Разработка автоматизированной системы анализа новостного контента, способной в реальном времени извлекать ключевые сущности (персоны, компании), сопоставлять их с данными из открытых источников и классифицировать информационные события в контексте политических и экономических рисков для последующего реагирования Задачи 1. Разработка модуля сбора данных: Парсинг новостных сайтов, агрегаторов, телеграм-каналов и других открытых источников, включая поисковики;Скачивание и очистка текстов. 2. Извлечение сущностей (NER): Автоматическое выявление упоминаний сущностей;Cопоставление с сущностями в БД 3. Интеграция с открытыми источниками:Автоматический парсинг сведений о сущностях (с оф. ресурсов, реестров, соцсетей, открытых источников и др.);Cопоставление сущностей из новостей и внешних источников 4. Классификация новостей и событий:Определение релевантности новостей по заданным критериям; Кластеризация новостей по смысловой нагрузке, анализ ключевых слов; Вычленение основных ключей для сбора статистики и оценки релевантности;Обучение моделей по заданным задачам (ML/LLM). 5. Система оповещений и визуализация:Построение панели мониторинга – создание фильтров и системы уведомления пользователей системы;Построение отчетов по критериям – статистика источника, сущностей или анализ содержимого сущностей 6. Обеспечение масштабируемости и устойчивости системы:Горизонтальное масштабирование сбора и обработки данных; Отказоустойчивость;Архивация БД 7. Корректировки: Создание и редактирование любой сущности системы 8. Построение интуитивно понятного интерфейса для работы с системой Результат В результате реализации проекта будет создана интеллектуальная система мониторинга и анализа новостного контента, обладающая следующими функциями: ∙ Автоматический сбор новостей из открытых источников в режиме реального времени (новостные сайты, агрегаторы, телеграм-каналы, публичные реестры, базы данных и т.д.). ∙ Выделение и идентификация сущностей (персон, компаний) с последующим связыванием с профилями из открытых источников, сбор истории изменения сущности. ∙ Интерпретация новостей в контексте заданных критериев — политических, экономических, санкционных и других рисков, с возможностью настройки фильтров и кластеров. ∙ Классификация и приоритизация новостей для ручного выявления значимых изменений во внешней среде. ∙ Web-система с поиском, фильтрацией, визуализацией связей и генерацией уведомлений в случае потенциально значимых событий. Партнёры проекта ООО «МОСИТЛАБ» ***