15분
"규칙을 아무리 만들어도..." - 규칙 기반의 한계
Day 4: ML 기반 Entity Resolution
"규칙을 아무리 만들어도..." - 규칙 기반의 한계
Entity Resolution & 데이터 통합 > Day 4: ML 기반 Entity Resolution
학습 목표
규칙 기반 ER의 한계를 이해한다 ML 기반 ER의 필요성을 파악한다
"이 규칙만 추가하면 될 줄 알았는데..."
Entity Resolution 시스템을 운영 중이다.
매주 새로운 예외 케이스가 발견된다.
Week 1: 기본 규칙
에디터 로딩 중...
결과: Precision 95%, Recall 80%
Week 2: 예외 추가
에디터 로딩 중...
결과: Precision 93%, Recall 85%
- Recall은 올랐지만 Precision 하락
Week 4: 규칙 폭발
에디터 로딩 중...
문제:
- 규칙 추가할수록 복잡도 ↑
- 규칙 간 충돌 발생
- 새로운 케이스마다 수작업 필요
- 유지보수 악몽
더 나은 방법은 없을까?
아이디어: 기계가 패턴을 학습하게 하자
에디터 로딩 중...
오늘 배울 것
- 확률 모델 - Fellegi-Sunter 모델
- 지도 학습 - 레이블 데이터로 분류기 학습
- Active Learning - 효율적인 레이블링
- dedupe 라이브러리 - Python 실전 구현
규칙의 늪에서 탈출하자.