Nhận dạng thực thể có tên là gì
Trích xuất thực thể có tên từ văn bản
Nhận dạng thực thể có tên (NER) là nhiệm vụ NLP để tự động nhận dạng và phân loại các thực thể có tên trong văn bản: tên người, tổ chức, địa điểm, ngày tháng, số tiền và các danh mục khác.
Loại thực thể
- PER — tên người (Nguyễn Văn A, Elon Musk)
- ORG — tổ chức (FPT, Google, Liên Hợp Quốc)
- LOC — địa điểm (Hà Nội, Việt Nam, núi Everest)
- DATE — ngày và giờ (1 tháng 1 năm 2024, hôm qua)
- MONEY — số tiền (100 đô la, 5000 VND)
- PRODUCT — sản phẩm (iPhone 15, Tesla Model 3)
Phương pháp NER
- Quy tắc và từ điển — cách tiếp cận cơ bản với biểu thức chính quy
- Học máy — CRF, SVM trên dữ liệu được gán nhãn
- Học sâu — BiLSTM-CRF, BERT, RoBERTa
- Transfer learning — tinh chỉnh các mô hình được huấn luyện trước
Ứng dụng
- Công cụ tìm kiếm và truy xuất thông tin
- Chatbot và trợ lý ảo
- Phân tích tin tức và giám sát truyền thông
- Trích xuất dữ liệu từ tài liệu
- Tuân thủ và kiểm tra danh sách trừng phạt
Thư viện và công cụ
- spaCy — NLP nhanh với NER tích hợp
- NLTK — thư viện NLP cổ điển
- Hugging Face Transformers — mô hình BERT cho NER
- Stanford NER — thư viện Java
- Flair — NLP tiên tiến
Chỉ số chất lượng
- Precision — độ chính xác nhận dạng
- Recall — độ đầy đủ (tìm được bao nhiêu thực thể)
- F1-score — trung bình điều hòa của precision và recall
- Cấp thực thể vs cấp token — đánh giá ở cấp thực thể hoặc token
Thách thức
- Đồng âm (Apple — công ty hay trái cây?)
- Thực thể lồng nhau (Đại học California, Los Angeles)
- Thực thể hiếm và mới xuất hiện
- Hỗ trợ đa ngôn ngữ