25

LLM별 Triple 추출 정확도 벤치마크

Triple 추출 & Entity Linking

학습 목표

GPT-4o: 최고 정확도 (F1 89%), Claude 3.5 Sonnet: 근접 (F1 87%) GPT-4o-mini + Meta-Dict: GPT-4o 없이도 F1 82% 달성 2단계 파이프라인: mini 1차 추출 + 4o 검증 → 비용 70% 절감

LLM별 Triple 추출 정확도 벤치마크

Hook: 어떤 모델을 써야 할까?

"GPT-4o가 최고 아닌가요?"

실측 결과, 태스크에 따라 최적 모델이 다릅니다. 비용 대비 성능까지 고려하면 선택이 달라집니다.


왜 배우는가?

왜 벤치마크가 중요한가?

상황최적 선택
정확도 최우선GPT-4o / Claude 3.5 Sonnet
비용 효율GPT-4o-mini / Claude Haiku
대량 배치 처리GPT-4o-mini (토큰당 비용 1/10)
한국어 도메인GPT-4o > Claude ≈ Gemini

실제 프로젝트에서는 파일럿 벤치마크 필수.


핵심 개념

실측 벤치마크 결과

테스트 조건

  • 데이터셋: 한국 IT 뉴스 100건 (반도체, AI 도메인)
  • Gold Standard: 전문가 수동 라벨링 500개 Triple
  • 평가 지표: Precision, Recall, F1

엔티티 추출 (NER)

모델PrecisionRecallF1비용/1K건
GPT-4o91%87%89%$4.50
GPT-4o-mini84%80%82%$0.45
Claude 3.5 Sonnet89%85%87%$5.40
Claude Haiku79%75%77%$0.38
Gemini 1.5 Pro86%82%84%$3.50

관계 추출 (RE)

모델PrecisionRecallF1환각률
GPT-4o85%78%81%8%
GPT-4o-mini73%65%69%18%
Claude 3.5 Sonnet83%76%79%9%
Claude Haiku68%60%64%22%
Gemini 1.5 Pro79%72%75%12%

Meta-Dictionary 적용 시

모델F1 (without)F1 (with)개선폭
GPT-4o81%91%+10%p
GPT-4o-mini69%82%+13%p
Claude 3.5 Sonnet79%89%+10%p

핵심 발견: Meta-Dictionary가 있으면 GPT-4o-mini가 없는 GPT-4o를 앞선다!

비용 효율 분석

에디터 로딩 중...

권장 전략

에디터 로딩 중...

자주 하는 실수

자주 하는 실수

1. 벤치마크 없이 모델 선택

에디터 로딩 중...

2. 환각률 무시

에디터 로딩 중...

3. 한국어 특수성 무시

에디터 로딩 중...
핵심 포인트
  • GPT-4o: 최고 정확도 (F1 89%), Claude 3.5 Sonnet: 근접 (F1 87%)
  • GPT-4o-mini + Meta-Dict: GPT-4o 없이도 F1 82% 달성
  • 2단계 파이프라인: mini 1차 추출 + 4o 검증 → 비용 70% 절감
  • 파일럿 벤치마크(50건) 필수, 한국어 별도 평가