25분
Active Learning: 효율적인 레이블링
Day 4: ML 기반 Entity Resolution
Active Learning: 효율적인 레이블링
Entity Resolution & 데이터 통합 > Day 4: ML 기반 Entity Resolution
학습 목표
Active Learning의 원리를 이해한다 불확실성 기반 샘플링의 효과를 파악한다
Active Learning이란?
모델이 가장 유용한 샘플을 선택하여 사람에게 레이블링 요청
에디터 로딩 중...
핵심: 적은 레이블로 높은 성능
샘플링 전략
1. Uncertainty Sampling
가장 불확실한 샘플 선택
에디터 로딩 중...
2. Query by Committee
여러 모델의 의견이 다른 샘플 선택
에디터 로딩 중...
3. Expected Model Change
레이블링 시 모델이 가장 많이 바뀔 샘플 선택
(계산 비용이 높아 실무에서 드뭄)
Active Learning 루프
에디터 로딩 중...
에디터 로딩 중...
Entity Resolution에서 Active Learning
에디터 로딩 중...
주의사항
1. Cold Start
- 초기 모델이 너무 약하면 불확실성 샘플링이 효과 없음
- 초기 레이블은 다양하게 (Match/Non-Match 균형)
2. Sampling Bias
- 불확실한 샘플만 보면 전체 분포를 놓칠 수 있음
- 가끔 랜덤 샘플도 포함
3. Human Fatigue
- 레이블링은 지루한 작업
- UI/UX가 중요