Nima Nomlangan ob'yektlarni tanish
Matndan nomlangan ob'yektlarni ajratib olish
Nomlangan ob'yektlarni tanish (NER) — matndagi nomlangan ob'yektlarni avtomatik ravishda aniqlash va tasniflash uchun NLP vazifasi: odamlar ismlari, tashkilotlar, geografik joylar, sanalar, pul miqdorlari va boshqa toifalar.
Ob'yekt turlari
- PER — shaxs ismlari (Alisher Navoiy, Elon Musk)
- ORG — tashkilotlar (Google, O'zbekiston temir yo'llari, BMT)
- LOC — joylar (Toshkent, O'zbekiston, Everest tog'i)
- DATE — sanalar va vaqtlar (2024 yil 1 yanvar, kecha)
- MONEY — pul miqdorlari (100 dollar, 5000 so'm)
- PRODUCT — mahsulotlar (iPhone 15, Tesla Model 3)
NER usullari
- Qoidalar va lug'atlar — muntazam ifodalar bilan asosiy yondashuv
- Mashina o'rganish — belgilangan ma'lumotlarda CRF, SVM
- Chuqur o'rganish — BiLSTM-CRF, BERT, RoBERTa
- Transfer o'rganish — oldindan o'qitilgan modellarni nozik sozlash
Ilovalar
- Qidiruv tizimlari va ma'lumotlarni olish
- Chatbotlar va virtual yordamchilar
- Yangiliklar tahlili va media monitoring
- Hujjatlardan ma'lumotlarni ajratib olish
- Muvofiqlik va sanktsiyalar ro'yxatini tekshirish
Kutubxonalar va vositalar
- spaCy — o'rnatilgan NER bilan tezkor NLP
- NLTK — klassik NLP kutubxonasi
- Hugging Face Transformers — NER uchun BERT modellari
- Stanford NER — Java kutubxonasi
- Flair — eng zamonaviy NLP
Sifat ko'rsatkichlari
- Precision — tanish aniqligi
- Recall — to'liqlik (qancha ob'yekt topildi)
- F1-score — precision va recall'ning garmonik o'rtachasi
- Ob'yekt darajasi vs Token darajasi — ob'yekt yoki token darajasida baholash
Qiyinchiliklar
- Omonimiya (Apple — kompaniya yoki meva?)
- Ichma-ich ob'yektlar (Kaliforniya universiteti, Los-Anjeles)
- Kam uchraydigan va yangi paydo bo'lgan ob'yektlar
- Ko'p tilli qo'llab-quvvatlash