Nedir Adlandırılmış Varlık Tanıma
Metinden adlandırılmış varlıkları çıkarma
Adlandırılmış Varlık Tanıma (NER), metindeki adlandırılmış varlıkları otomatik olarak tanımlayan ve sınıflandıran bir NLP görevidir: kişi adları, organizasyonlar, coğrafi konumlar, tarihler, para miktarları ve diğer kategoriler.
Varlık Türleri
- PER — kişi adları (Ahmet Yılmaz, Elon Musk)
- ORG — organizasyonlar (Google, Türk Telekom, BM)
- LOC — konumlar (İstanbul, Türkiye, Everest Dağı)
- DATE — tarihler ve saatler (1 Ocak 2024, dün)
- MONEY — para miktarları (100 dolar, 5000 TL)
- PRODUCT — ürünler (iPhone 15, Tesla Model 3)
NER Yöntemleri
- Kurallar ve sözlükler — düzenli ifadelerle temel yaklaşım
- Makine öğrenimi — etiketli veriler üzerinde CRF, SVM
- Derin öğrenme — BiLSTM-CRF, BERT, RoBERTa
- Transfer öğrenme — önceden eğitilmiş modellerin ince ayarı
Uygulamalar
- Arama motorları ve bilgi erişimi
- Sohbet botları ve sanal asistanlar
- Haber analizi ve medya takibi
- Belgelerden veri çıkarma
- Uyumluluk ve yaptırım listesi kontrolü
Kütüphaneler ve Araçlar
- spaCy — yerleşik NER ile hızlı NLP
- NLTK — klasik NLP kütüphanesi
- Hugging Face Transformers — NER için BERT modelleri
- Stanford NER — Java kütüphanesi
- Flair — son teknoloji NLP
Kalite Metrikleri
- Precision — tanıma doğruluğu
- Recall — tamlık (kaç varlık bulundu)
- F1-score — precision ve recall'un harmonik ortalaması
- Varlık düzeyi vs Token düzeyi — varlık veya token düzeyinde değerlendirme
Zorluklar
- Eşseslilik (Apple — şirket mi meyve mi?)
- İç içe varlıklar (University of California, Los Angeles)
- Nadir ve yeni ortaya çıkan varlıklar
- Çok dilli destek