15

온톨로지가 있어도 쓰레기 데이터면 소용없다

SHACL 데이터 검증 & 오픈 온톨로지

학습 목표

데이터 품질이 KG 프로젝트 성패를 좌우함을 이해 SHACL의 등장 배경과 OWL과의 차이 인식 오픈 온톨로지 재사용의 가치 인식

온톨로지가 있어도 쓰레기 데이터면 소용없다

학습 목표

  • 데이터 품질이 Knowledge Graph 프로젝트 실패의 1위 원인임을 이해한다
  • SHACL이 등장한 배경과 필요성을 설명할 수 있다
  • 오픈 온톨로지 재사용의 가치를 인식한다

온톨로지 ≠ 데이터 품질 보장

어제까지 우리는 OWL로 정교한 온톨로지를 설계했습니다. 클래스 계층, 프로퍼티 도메인/레인지, 카디널리티 제약... 멋진 스키마가 완성되었죠.

하지만 현실은 다릅니다:

에디터 로딩 중...

Knowledge Graph 프로젝트 실패 원인 Top 5

Gartner(2023) 리포트에 따르면:

순위실패 원인비율
1데이터 품질 문제38%
2온톨로지 설계 미흡22%
3조직 내 도입 저항18%
4성능/확장성13%
5도구/인프라 부족9%

핵심 통찰: 온톨로지를 아무리 잘 만들어도, 데이터가 규칙을 따르지 않으면 Knowledge Graph는 무용지물입니다.

OWL의 한계: Open World Assumption

OWL은 "열린 세계 가정(Open World Assumption)"을 따릅니다:

에디터 로딩 중...

이것이 SHACL이 필요한 이유입니다.

SHACL: Closed World 검증

W3C SHACL (Shapes Constraint Language)은 **닫힌 세계 가정(Closed World Assumption)**으로 데이터를 검증합니다:

에디터 로딩 중...

오늘의 로드맵

에디터 로딩 중...

왜 "바퀴를 다시 발명"하지 않는가?

세계 최고의 기관들이 이미 만들어 놓은 온톨로지가 있습니다:

온톨로지관리 기관도메인노드 수
Schema.orgGoogle+MS+Yahoo웹 일반800+ 타입
FOAF오픈 커뮤니티소셜20+ 클래스
Dublin CoreDCMI메타데이터15 프로퍼티
FIBOEDM Council금융1,500+ 클래스

이것들을 재사용하면:

  • 상호운용성 확보 (다른 시스템과 데이터 교환 가능)
  • 설계 시간 단축 (검증된 모델 활용)
  • 도구 생태계 활용 (이미 지원하는 도구가 많음)

📖 심화 읽기: 이강배 외, "지식그래프", 유원북스, 2025 — 제4장 SHACL과 데이터 품질

핵심 포인트
  • 데이터 품질 문제가 KG 프로젝트 실패의 38%를 차지 (1위 원인)
  • OWL은 Open World Assumption으로 데이터 검증에 부적합
  • SHACL은 Closed World Assumption으로 실무 데이터 검증 가능
  • 오픈 온톨로지(Schema.org, FOAF 등) 재사용으로 상호운용성 확보