15

"규칙을 아무리 만들어도..." - 규칙 기반의 한계

Day 4: ML 기반 Entity Resolution

학습 목표

규칙 기반 ER의 한계를 이해한다 ML 기반 ER의 필요성을 파악한다

"이 규칙만 추가하면 될 줄 알았는데..."

Entity Resolution 시스템을 운영 중이다.

매주 새로운 예외 케이스가 발견된다.


Week 1: 기본 규칙

에디터 로딩 중...

결과: Precision 95%, Recall 80%


Week 2: 예외 추가

에디터 로딩 중...

결과: Precision 93%, Recall 85%

  • Recall은 올랐지만 Precision 하락

Week 4: 규칙 폭발

에디터 로딩 중...

문제:

  • 규칙 추가할수록 복잡도 ↑
  • 규칙 간 충돌 발생
  • 새로운 케이스마다 수작업 필요
  • 유지보수 악몽

더 나은 방법은 없을까?

아이디어: 기계가 패턴을 학습하게 하자

에디터 로딩 중...

오늘 배울 것

  1. 확률 모델 - Fellegi-Sunter 모델
  2. 지도 학습 - 레이블 데이터로 분류기 학습
  3. Active Learning - 효율적인 레이블링
  4. dedupe 라이브러리 - Python 실전 구현

규칙의 늪에서 탈출하자.