25분
LLM별 Triple 추출 정확도 벤치마크
Triple 추출 & Entity Linking
LLM별 Triple 추출 정확도 벤치마크
GraphRAG > Triple 추출 & Entity Linking
학습 목표
GPT-4o: 최고 정확도 (F1 89%), Claude 3.5 Sonnet: 근접 (F1 87%) GPT-4o-mini + Meta-Dict: GPT-4o 없이도 F1 82% 달성 2단계 파이프라인: mini 1차 추출 + 4o 검증 → 비용 70% 절감
LLM별 Triple 추출 정확도 벤치마크
Hook: 어떤 모델을 써야 할까?
"GPT-4o가 최고 아닌가요?"
실측 결과, 태스크에 따라 최적 모델이 다릅니다. 비용 대비 성능까지 고려하면 선택이 달라집니다.
왜 배우는가?
왜 벤치마크가 중요한가?
| 상황 | 최적 선택 |
|---|---|
| 정확도 최우선 | GPT-4o / Claude 3.5 Sonnet |
| 비용 효율 | GPT-4o-mini / Claude Haiku |
| 대량 배치 처리 | GPT-4o-mini (토큰당 비용 1/10) |
| 한국어 도메인 | GPT-4o > Claude ≈ Gemini |
실제 프로젝트에서는 파일럿 벤치마크 필수.
핵심 개념
실측 벤치마크 결과
테스트 조건
- 데이터셋: 한국 IT 뉴스 100건 (반도체, AI 도메인)
- Gold Standard: 전문가 수동 라벨링 500개 Triple
- 평가 지표: Precision, Recall, F1
엔티티 추출 (NER)
| 모델 | Precision | Recall | F1 | 비용/1K건 |
|---|---|---|---|---|
| GPT-4o | 91% | 87% | 89% | $4.50 |
| GPT-4o-mini | 84% | 80% | 82% | $0.45 |
| Claude 3.5 Sonnet | 89% | 85% | 87% | $5.40 |
| Claude Haiku | 79% | 75% | 77% | $0.38 |
| Gemini 1.5 Pro | 86% | 82% | 84% | $3.50 |
관계 추출 (RE)
| 모델 | Precision | Recall | F1 | 환각률 |
|---|---|---|---|---|
| GPT-4o | 85% | 78% | 81% | 8% |
| GPT-4o-mini | 73% | 65% | 69% | 18% |
| Claude 3.5 Sonnet | 83% | 76% | 79% | 9% |
| Claude Haiku | 68% | 60% | 64% | 22% |
| Gemini 1.5 Pro | 79% | 72% | 75% | 12% |
Meta-Dictionary 적용 시
| 모델 | F1 (without) | F1 (with) | 개선폭 |
|---|---|---|---|
| GPT-4o | 81% | 91% | +10%p |
| GPT-4o-mini | 69% | 82% | +13%p |
| Claude 3.5 Sonnet | 79% | 89% | +10%p |
핵심 발견: Meta-Dictionary가 있으면 GPT-4o-mini가 없는 GPT-4o를 앞선다!
비용 효율 분석
에디터 로딩 중...
권장 전략
에디터 로딩 중...
자주 하는 실수
자주 하는 실수
1. 벤치마크 없이 모델 선택
에디터 로딩 중...
2. 환각률 무시
에디터 로딩 중...
3. 한국어 특수성 무시
에디터 로딩 중...
핵심 포인트
- • GPT-4o: 최고 정확도 (F1 89%), Claude 3.5 Sonnet: 근접 (F1 87%)
- • GPT-4o-mini + Meta-Dict: GPT-4o 없이도 F1 82% 달성
- • 2단계 파이프라인: mini 1차 추출 + 4o 검증 → 비용 70% 절감
- • 파일럿 벤치마크(50건) 필수, 한국어 별도 평가