30

Meta-Dictionary: LLM 추출 품질의 비밀 무기

Triple 추출 & Entity Linking

학습 목표

Meta-Dictionary: 도메인 전문지식을 JSON으로 구조화 엔티티 유형 + 관계 유형 + 제약 조건 정의 프롬프트에 주입하여 LLM 추출 정확도 20-30%p 향상

Meta-Dictionary: LLM 추출 품질의 비밀 무기

Hook: 같은 LLM, 다른 결과

동일한 GPT-4o에게 제조 도메인 문서의 Triple 추출을 시켰더니:

  • 프롬프트만 준 팀: 정확도 62%, 관계 유형 혼재
  • Meta-Dictionary 제공 팀: 정확도 89%, 일관된 온톨로지

차이는? 도메인 전문가의 암묵지를 구조화한 Meta-Dictionary.


왜 배우는가?

Meta-Dictionary란?

도메인 특화 키워드 사전 + 관계 정의 + 제약 조건을 JSON으로 체계화한 것.

에디터 로딩 중...

왜 필요한가?

문제Meta-Dictionary 해결
LLM이 관계 유형을 제멋대로 생성허용 관계 목록으로 제한
동의어/약어 혼재정규 이름(canonical name) 매핑
도메인 전문 용어 누락키워드 + 설명 사전 제공
엔티티 유형 불일치스키마 제약 조건 정의

핵심 개념

Meta-Dictionary 설계

JSON 구조

에디터 로딩 중...

Meta-Dictionary를 프롬프트에 주입

에디터 로딩 중...

효과 측정

지표Without Meta-DictWith Meta-Dict
엔티티 정확도68%89%
관계 정확도55%82%
스키마 일관성40%95%
환각 관계 비율25%5%

자주 하는 실수

자주 하는 실수

1. Meta-Dictionary를 너무 크게 만듦

에디터 로딩 중...

2. 별칭 매핑 누락

에디터 로딩 중...

3. 관계 방향 제약 누락

에디터 로딩 중...
핵심 포인트
  • Meta-Dictionary: 도메인 전문지식을 JSON으로 구조화
  • 엔티티 유형 + 관계 유형 + 제약 조건 정의
  • 프롬프트에 주입하여 LLM 추출 정확도 20-30%p 향상
  • 도메인당 5-10개 핵심 유형으로 간결하게 유지