क्या है नामित इकाई पहचान
पाठ से नामित इकाइयों का निष्कर्षण
नामित इकाई पहचान (NER) एक NLP कार्य है जो पाठ में नामित इकाइयों को स्वचालित रूप से पहचानने और वर्गीकृत करने के लिए है: लोगों के नाम, संगठन, भौगोलिक स्थान, तिथियां, मौद्रिक राशि और अन्य श्रेणियां।
इकाई प्रकार
- PER — व्यक्ति के नाम (राहुल शर्मा, Elon Musk)
- ORG — संगठन (टाटा, Google, संयुक्त राष्ट्र)
- LOC — स्थान (मुंबई, भारत, माउंट एवरेस्ट)
- DATE — तिथि और समय (1 जनवरी 2024, कल)
- MONEY — मौद्रिक राशि ($100, 5000 रुपये)
- PRODUCT — उत्पाद (iPhone 15, Tesla Model 3)
NER विधियां
- नियम और शब्दकोश — रेगुलर एक्सप्रेशन के साथ मूल दृष्टिकोण
- मशीन लर्निंग — लेबल किए गए डेटा पर CRF, SVM
- डीप लर्निंग — BiLSTM-CRF, BERT, RoBERTa
- ट्रांसफर लर्निंग — पूर्व-प्रशिक्षित मॉडल का फाइन-ट्यूनिंग
अनुप्रयोग
- खोज इंजन और सूचना पुनर्प्राप्ति
- चैटबॉट और वर्चुअल असिस्टेंट
- समाचार विश्लेषण और मीडिया निगरानी
- दस्तावेजों से डेटा निष्कर्षण
- अनुपालन और प्रतिबंध सूची जांच
लाइब्रेरी और टूल्स
- spaCy — बिल्ट-इन NER के साथ तेज NLP
- NLTK — क्लासिक NLP लाइब्रेरी
- Hugging Face Transformers — NER के लिए BERT मॉडल
- Stanford NER — Java लाइब्रेरी
- Flair — अत्याधुनिक NLP
गुणवत्ता मेट्रिक्स
- प्रिसिजन — पहचान सटीकता
- रिकॉल — पूर्णता (कितनी इकाइयां मिलीं)
- F1-स्कोर — प्रिसिजन और रिकॉल का हार्मोनिक मीन
- इकाई स्तर बनाम टोकन स्तर — इकाई या टोकन स्तर पर मूल्यांकन
चुनौतियां
- समानार्थी शब्द (Apple — कंपनी या फल?)
- नेस्टेड इकाइयां (कैलिफोर्निया विश्वविद्यालय, लॉस एंजिल्स)
- दुर्लभ और उभरती इकाइयां
- बहुभाषी समर्थन