ما هو التعرف على الكيانات المسماة
استخراج الكيانات المسماة من النص
التعرف على الكيانات المسماة (NER) هي مهمة معالجة اللغة الطبيعية لتحديد وتصنيف الكيانات المسماة تلقائياً في النص: أسماء الأشخاص والمنظمات والمواقع الجغرافية والتواريخ والمبالغ المالية وغيرها.
أنواع الكيانات
- PER — أسماء الأشخاص (أحمد محمد، Elon Musk)
- ORG — المنظمات (جوجل، أرامكو، الأمم المتحدة)
- LOC — المواقع (الرياض، السعودية، جبل إيفرست)
- DATE — التواريخ والأوقات (1 يناير 2024، أمس)
- MONEY — المبالغ المالية (100 دولار، 5000 ريال)
- PRODUCT — المنتجات (iPhone 15، Tesla Model 3)
طرق NER
- القواعد والقواميس — النهج الأساسي بالتعبيرات النمطية
- تعلم الآلة — CRF، SVM على البيانات المُعلَّمة
- التعلم العميق — BiLSTM-CRF، BERT، RoBERTa
- نقل التعلم — ضبط دقيق للنماذج المُدربة مسبقاً
التطبيقات
- محركات البحث واسترجاع المعلومات
- روبوتات المحادثة والمساعدين الافتراضيين
- تحليل الأخبار ومراقبة وسائل الإعلام
- استخراج البيانات من المستندات
- الامتثال والتحقق من قوائم العقوبات
المكتبات والأدوات
- spaCy — NLP سريع مع NER مدمج
- NLTK — مكتبة NLP كلاسيكية
- Hugging Face Transformers — نماذج BERT لـ NER
- Stanford NER — مكتبة Java
- Flair — NLP متطور
مقاييس الجودة
- الدقة — دقة التعرف
- الاستدعاء — الاكتمال (كم كيان تم العثور عليه)
- F1-score — المتوسط التوافقي للدقة والاستدعاء
- مستوى الكيان مقابل مستوى الرمز — التقييم على مستوى الكيان أو الرمز
التحديات
- التجانس (Apple — شركة أم فاكهة؟)
- الكيانات المتداخلة (جامعة كاليفورنيا، لوس أنجلوس)
- الكيانات النادرة والناشئة
- الدعم متعدد اللغات