Tóm tắt Văn bản là gì
Tạo tóm tắt tự động
Tóm tắt Văn bản là một nhiệm vụ NLP để tự động tạo phiên bản rút gọn của văn bản trong khi bảo toàn thông tin chính.
Các cách tiếp cận
- Trích xuất — chọn các câu quan trọng từ văn bản nguồn
- Trừu tượng — tạo các câu mới dựa trên ý nghĩa
- Lai — kết hợp cả hai cách tiếp cận
Phương pháp
- Cổ điển — TF-IDF, TextRank, LSA
- Neural — Seq2Seq, cơ chế Attention
- Hiện đại — BART, T5, GPT, Pegasus
Ứng dụng kinh doanh
- Tóm tắt tin tức tự động
- Tóm tắt báo cáo và tài liệu
- Tóm tắt chuỗi email
- Nén bài viết cho bản xem trước
- Chuẩn bị tóm tắt điều hành
Chỉ số chất lượng
- ROUGE — so sánh n-gram với tham chiếu
- BLEU — chất lượng tạo văn bản
- BERTScore — độ tương đồng ngữ nghĩa