คืออะไร การรู้จำเอนทิตีที่มีชื่อ
การสกัดเอนทิตีที่มีชื่อจากข้อความ
การรู้จำเอนทิตีที่มีชื่อ (NER) เป็นงาน NLP สำหรับการระบุและจำแนกเอนทิตีที่มีชื่อในข้อความโดยอัตโนมัติ: ชื่อบุคคล องค์กร สถานที่ทางภูมิศาสตร์ วันที่ จำนวนเงิน และหมวดหมู่อื่นๆ
ประเภทเอนทิตี
- PER — ชื่อบุคคล (สมชาย ใจดี, Elon Musk)
- ORG — องค์กร (Google, ปตท, UN)
- LOC — สถานที่ (กรุงเทพฯ, ประเทศไทย, ภูเขาเอเวอเรสต์)
- DATE — วันที่และเวลา (1 มกราคม 2024, เมื่อวาน)
- MONEY — จำนวนเงิน (100 ดอลลาร์, 5000 บาท)
- PRODUCT — ผลิตภัณฑ์ (iPhone 15, Tesla Model 3)
วิธีการ NER
- กฎและพจนานุกรม — แนวทางพื้นฐานด้วยนิพจน์ปกติ
- การเรียนรู้ของเครื่อง — CRF, SVM บนข้อมูลที่มีป้ายกำกับ
- การเรียนรู้เชิงลึก — BiLSTM-CRF, BERT, RoBERTa
- Transfer learning — การปรับแต่งโมเดลที่ฝึกไว้ล่วงหน้า
การประยุกต์ใช้
- เครื่องมือค้นหาและการดึงข้อมูล
- แชทบอทและผู้ช่วยเสมือน
- การวิเคราะห์ข่าวและการติดตามสื่อ
- การสกัดข้อมูลจากเอกสาร
- การปฏิบัติตามกฎระเบียบและการตรวจสอบรายชื่อผู้ถูกคว่ำบาตร
ไลบรารีและเครื่องมือ
- spaCy — NLP ที่รวดเร็วพร้อม NER ในตัว
- NLTK — ไลบรารี NLP คลาสสิก
- Hugging Face Transformers — โมเดล BERT สำหรับ NER
- Stanford NER — ไลบรารี Java
- Flair — NLP ที่ทันสมัย
ตัวชี้วัดคุณภาพ
- Precision — ความแม่นยำในการรู้จำ
- Recall — ความครบถ้วน (พบเอนทิตีกี่ตัว)
- F1-score — ค่าเฉลี่ยฮาร์โมนิกของ precision และ recall
- ระดับเอนทิตี vs ระดับโทเคน — การประเมินในระดับเอนทิตีหรือโทเคน
ความท้าทาย
- คำพ้องเสียง (Apple — บริษัทหรือผลไม้?)
- เอนทิตีซ้อนกัน (มหาวิทยาลัยแคลิฟอร์เนีย ลอสแอนเจลิส)
- เอนทิตีที่หายากและเกิดใหม่
- รองรับหลายภาษา