25분

LLM별 Triple 추출 정확도 벤치마크

Triple 추출 & Entity Linking

학습 목표

GPT-4o: 최고 정확도 (F1 89%), Claude 3.5 Sonnet: 근접 (F1 87%) GPT-4o-mini + Meta-Dict: GPT-4o 없이도 F1 82% 달성 2단계 파이프라인: mini 1차 추출 + 4o 검증 → 비용 70% 절감

LLM별 Triple 추출 정확도 벤치마크

Hook: 어떤 모델을 써야 할까?

"GPT-4o가 최고 아닌가요?"

실측 결과, 태스크에 따라 최적 모델이 다릅니다. 비용 대비 성능까지 고려하면 선택이 달라집니다.

왜 배우는가?

왜 벤치마크가 중요한가?

상황	최적 선택
정확도 최우선	GPT-4o / Claude 3.5 Sonnet
비용 효율	GPT-4o-mini / Claude Haiku
대량 배치 처리	GPT-4o-mini (토큰당 비용 1/10)
한국어 도메인	GPT-4o > Claude ≈ Gemini

실제 프로젝트에서는 파일럿 벤치마크 필수.

핵심 개념

실측 벤치마크 결과

테스트 조건

데이터셋: 한국 IT 뉴스 100건 (반도체, AI 도메인)
Gold Standard: 전문가 수동 라벨링 500개 Triple
평가 지표: Precision, Recall, F1

엔티티 추출 (NER)

모델	Precision	Recall	F1	비용/1K건
GPT-4o	91%	87%	89%	$4.50
GPT-4o-mini	84%	80%	82%	$0.45
Claude 3.5 Sonnet	89%	85%	87%	$5.40
Claude Haiku	79%	75%	77%	$0.38
Gemini 1.5 Pro	86%	82%	84%	$3.50

관계 추출 (RE)

모델	Precision	Recall	F1	환각률
GPT-4o	85%	78%	81%	8%
GPT-4o-mini	73%	65%	69%	18%
Claude 3.5 Sonnet	83%	76%	79%	9%
Claude Haiku	68%	60%	64%	22%
Gemini 1.5 Pro	79%	72%	75%	12%

Meta-Dictionary 적용 시

모델	F1 (without)	F1 (with)	개선폭
GPT-4o	81%	91%	+10%p
GPT-4o-mini	69%	82%	+13%p
Claude 3.5 Sonnet	79%	89%	+10%p

핵심 발견: Meta-Dictionary가 있으면 GPT-4o-mini가 없는 GPT-4o를 앞선다!

비용 효율 분석

에디터 로딩 중...

권장 전략

에디터 로딩 중...

자주 하는 실수

자주 하는 실수

1. 벤치마크 없이 모델 선택

에디터 로딩 중...

2. 환각률 무시

에디터 로딩 중...

3. 한국어 특수성 무시

에디터 로딩 중...

핵심 포인트

• GPT-4o: 최고 정확도 (F1 89%), Claude 3.5 Sonnet: 근접 (F1 87%)
• GPT-4o-mini + Meta-Dict: GPT-4o 없이도 F1 82% 달성
• 2단계 파이프라인: mini 1차 추출 + 4o 검증 → 비용 70% 절감
• 파일럿 벤치마크(50건) 필수, 한국어 별도 평가