Что такое Суммаризация текста
Автоматическое создание краткого изложения
Суммаризация текста — задача NLP по автоматическому созданию сжатой версии текста, сохраняющей ключевую информацию.
Подходы
- Экстрактивный — выбор важных предложений из исходного текста
- Абстрактивный — генерация новых предложений на основе смысла
- Гибридный — комбинация обоих подходов
Методы
- Классические — TF-IDF, TextRank, LSA
- Нейросетевые — Seq2Seq, Attention механизмы
- Современные — BART, T5, GPT, Pegasus
Применение в бизнесе
- Автоматические дайджесты новостей
- Резюмирование отчётов и документов
- Краткое содержание email-переписки
- Сжатие статей для превью
- Подготовка executive summary
Метрики качества
- ROUGE — сравнение n-грамм с эталоном
- BLEU — качество генерации текста
- BERTScore — семантическое сходство