Аталған нысандарды тану дегеніміз не
Мәтіннен аталған нысандарды шығару
Аталған нысандарды тану (NER) — мәтіндегі аталған нысандарды автоматты түрде анықтау және жіктеу үшін NLP тапсырмасы: адамдардың есімдері, ұйымдар, географиялық орындар, күндер, ақша сомалары және басқа санаттар.
Нысан түрлері
- PER — адам есімдері (Абай Құнанбаев, Elon Musk)
- ORG — ұйымдар (Google, Қазақстан темір жолы, БҰҰ)
- LOC — орындар (Алматы, Қазақстан, Эверест тауы)
- DATE — күндер мен уақыттар (2024 жылғы 1 қаңтар, кеше)
- MONEY — ақша сомалары (100 доллар, 5000 теңге)
- PRODUCT — өнімдер (iPhone 15, Tesla Model 3)
NER әдістері
- Ережелер мен сөздіктер — тұрақты өрнектермен негізгі тәсіл
- Машиналық оқыту — белгіленген деректерде CRF, SVM
- Терең оқыту — BiLSTM-CRF, BERT, RoBERTa
- Трансферлік оқыту — алдын ала оқытылған модельдерді дәл баптау
Қолданбалар
- Іздеу жүйелері және ақпаратты іздеу
- Чатботтар және виртуалды көмекшілер
- Жаңалықтарды талдау және БАҚ мониторингі
- Құжаттардан деректерді шығару
- Сәйкестік және санкциялар тізімін тексеру
Кітапханалар мен құралдар
- spaCy — кіріктірілген NER бар жылдам NLP
- NLTK — классикалық NLP кітапханасы
- Hugging Face Transformers — NER үшін BERT модельдері
- Stanford NER — Java кітапханасы
- Flair — ең заманауи NLP
Сапа көрсеткіштері
- Precision — тану дәлдігі
- Recall — толықтық (қанша нысан табылды)
- F1-score — precision және recall гармоникалық орташасы
- Нысан деңгейі vs Токен деңгейі — нысан немесе токен деңгейінде бағалау
Қиындықтар
- Омонимия (Apple — компания ма әлде жеміс пе?)
- Кірістірілген нысандар (Калифорния университеті, Лос-Анджелес)
- Сирек кездесетін және жаңа пайда болған нысандар
- Көп тілді қолдау