개체명 인식 이란
텍스트에서 개체명 추출
**개체명 인식(NER)**은 텍스트에서 사람 이름, 조직, 지리적 위치, 날짜, 금액 및 기타 범주의 개체명을 자동으로 식별하고 분류하는 NLP 작업입니다.
개체 유형
- PER — 인명(김철수, Elon Musk)
- ORG — 조직(삼성, Google, UN)
- LOC — 위치(서울, 한국, 에베레스트산)
- DATE — 날짜 및 시간(2024년 1월 1일, 어제)
- MONEY — 금액(100달러, 5000원)
- PRODUCT — 제품(iPhone 15, Tesla Model 3)
NER 방법
- 규칙 및 사전 — 정규 표현식을 사용한 기본 접근법
- 머신러닝 — 레이블된 데이터에서 CRF, SVM
- 딥러닝 — BiLSTM-CRF, BERT, RoBERTa
- 전이 학습 — 사전 훈련된 모델 미세 조정
응용 분야
- 검색 엔진 및 정보 검색
- 챗봇 및 가상 비서
- 뉴스 분석 및 미디어 모니터링
- 문서에서 데이터 추출
- 규정 준수 및 제재 목록 확인
라이브러리 및 도구
- spaCy — 내장 NER을 갖춘 빠른 NLP
- NLTK — 클래식 NLP 라이브러리
- Hugging Face Transformers — NER용 BERT 모델
- Stanford NER — Java 라이브러리
- Flair — 최첨단 NLP
품질 지표
- 정밀도 — 인식 정확도
- 재현율 — 완전성(찾은 개체 수)
- F1 점수 — 정밀도와 재현율의 조화 평균
- 개체 수준 vs 토큰 수준 — 개체 또는 토큰 수준에서 평가
과제
- 동음이의어(Apple — 회사인가 과일인가?)
- 중첩 개체(캘리포니아 대학교 로스앤젤레스)
- 희귀하고 새로운 개체
- 다국어 지원