固有表現認識 とは
テキストから固有表現を抽出
**固有表現認識(NER)**は、テキスト内の固有表現(人名、組織名、地名、日付、金額など)を自動的に識別・分類するNLPタスクです。
エンティティタイプ
- PER — 人名(山田太郎、Elon Musk)
- ORG — 組織(トヨタ、Google、国連)
- LOC — 場所(東京、日本、エベレスト山)
- DATE — 日付と時刻(2024年1月1日、昨日)
- MONEY — 金額(100ドル、5000円)
- PRODUCT — 製品(iPhone 15、Tesla Model 3)
NER手法
- ルールと辞書 — 正規表現を使用した基本的なアプローチ
- 機械学習 — ラベル付きデータでのCRF、SVM
- ディープラーニング — BiLSTM-CRF、BERT、RoBERTa
- 転移学習 — 事前学習済みモデルのファインチューニング
応用分野
- 検索エンジンと情報検索
- チャットボットとバーチャルアシスタント
- ニュース分析とメディアモニタリング
- 文書からのデータ抽出
- コンプライアンスと制裁リストチェック
ライブラリとツール
- spaCy — 組み込みNERを備えた高速NLP
- NLTK — クラシックNLPライブラリ
- Hugging Face Transformers — NER用BERTモデル
- Stanford NER — Javaライブラリ
- Flair — 最先端NLP
品質指標
- 適合率 — 認識精度
- 再現率 — 完全性(見つかったエンティティ数)
- F1スコア — 適合率と再現率の調和平均
- エンティティレベル vs トークンレベル — エンティティまたはトークンレベルでの評価
課題
- 同音異義語(Apple — 会社か果物か?)
- ネストされたエンティティ(カリフォルニア大学ロサンゼルス校)
- 希少で新しいエンティティ
- 多言語サポート