40

실습: Entity Resolution 심화 — 3-Tier 하이브리드

Triple 추출 & Entity Linking

학습 목표

3-Tier: Fuzzy(빠름/무료) → Embedding(의미적) → LLM(최종 판단) 80% 이상이 Tier 1-2에서 해결, LLM 호출 최소화 APOC apoc.refactor.mergeNodes로 Neo4j 내 대량 병합

Entity Resolution 심화: 3-Tier 하이브리드 전략

Hook: 별칭 사전만으로는 부족하다

Task 4에서 배운 별칭 사전 + Fuzzy Matching은 사전에 등록된 엔티티만 처리 가능.

새로운 엔티티, 오타, 약어가 등장하면? → 3단계 하이브리드 Entity Resolution이 필요합니다.


왜 배우는가?

실전에서 만나는 문제

케이스별칭 사전Fuzzy임베딩LLM
"삼성" → "삼성전자"
"Samsnug" (오타)
"SEC" (증권 코드)⚠️
"반도체 1위 업체" (우회 표현)⚠️
새로운 스타트업명

단일 방법으로는 모든 케이스를 커버 불가 → 3-Tier 조합이 최적.


구현 방법

3-Tier Entity Resolution 파이프라인

에디터 로딩 중...

구현 코드

에디터 로딩 중...

Neo4j APOC 활용 대량 처리

에디터 로딩 중...

자주 하는 실수

자주 하는 실수

1. Tier 순서를 바꿈

에디터 로딩 중...

2. Threshold 고정

에디터 로딩 중...

3. APOC 배치 사이즈 미설정

에디터 로딩 중...
에디터 로딩 중...