▶️25

Triple 추출: 텍스트를 Knowledge Graph로

Triple 추출 & Entity Linking

학습 목표

Triple = (Subject, Predicate, Object) LLM으로 비정형 텍스트에서 자동 추출 멀티홉 추론을 위해 구조화 필수

▶️

영상 준비 중

25

Triple 추출: 텍스트를 Knowledge Graph로

Hook: 비정형 텍스트의 한계

"삼성전자 이재용 회장이 NVIDIA의 젠슨 황 CEO와 AI 반도체 협력을 논의했다."

이 문장을 그대로 벡터 DB에 저장하면:

  • "이재용과 젠슨 황의 관계는?" → 검색 가능
  • "삼성전자와 NVIDIA의 관계는?" → 검색 가능
  • "이재용이 만난 CEO 중 AI 회사 대표는?" → 검색 어려움 (멀티홉)

Triple 추출로 이 텍스트를 구조화하면:

에디터 로딩 중...

이제 멀티홉 질문도 Cypher로 답변 가능:

에디터 로딩 중...

왜 배우는가?

Triple이란?

Triple = (Subject, Predicate, Object)

  • Subject: 주어 (엔티티)
  • Predicate: 관계 (동사)
  • Object: 목적어 (엔티티 또는 리터럴)

예시:

SubjectPredicateObject
이재용CEO_OF삼성전자
삼성전자COMPETES_WITHSK하이닉스
NVIDIAFOUNDED_IN1993

왜 Triple 추출인가?

  1. 비정형 → 구조화: 텍스트를 그래프로 변환
  2. 자동화: LLM이 대량 문서에서 자동 추출
  3. 통합: 여러 소스의 정보를 하나의 KG로 연결

핵심 개념

Triple 추출 파이프라인

에디터 로딩 중...

핵심 단계

  1. Named Entity Recognition (NER): 엔티티 식별
  2. Relation Extraction (RE): 관계 추출
  3. Entity Linking: 동일 엔티티 연결 (별칭 처리)
  4. Graph Construction: Neo4j에 저장
핵심 포인트
  • Triple = (Subject, Predicate, Object)
  • LLM으로 비정형 텍스트에서 자동 추출
  • 멀티홉 추론을 위해 구조화 필수
  • 정규화와 Entity Linking이 품질 결정