15분
온톨로지가 있어도 쓰레기 데이터면 소용없다
SHACL 데이터 검증 & 오픈 온톨로지
온톨로지가 있어도 쓰레기 데이터면 소용없다
온톨로지 & 시맨틱웹 > SHACL 데이터 검증 & 오픈 온톨로지
학습 목표
데이터 품질이 KG 프로젝트 성패를 좌우함을 이해 SHACL의 등장 배경과 OWL과의 차이 인식 오픈 온톨로지 재사용의 가치 인식
온톨로지가 있어도 쓰레기 데이터면 소용없다
학습 목표
- 데이터 품질이 Knowledge Graph 프로젝트 실패의 1위 원인임을 이해한다
- SHACL이 등장한 배경과 필요성을 설명할 수 있다
- 오픈 온톨로지 재사용의 가치를 인식한다
온톨로지 ≠ 데이터 품질 보장
어제까지 우리는 OWL로 정교한 온톨로지를 설계했습니다. 클래스 계층, 프로퍼티 도메인/레인지, 카디널리티 제약... 멋진 스키마가 완성되었죠.
하지만 현실은 다릅니다:
에디터 로딩 중...
Knowledge Graph 프로젝트 실패 원인 Top 5
Gartner(2023) 리포트에 따르면:
| 순위 | 실패 원인 | 비율 |
|---|---|---|
| 1 | 데이터 품질 문제 | 38% |
| 2 | 온톨로지 설계 미흡 | 22% |
| 3 | 조직 내 도입 저항 | 18% |
| 4 | 성능/확장성 | 13% |
| 5 | 도구/인프라 부족 | 9% |
핵심 통찰: 온톨로지를 아무리 잘 만들어도, 데이터가 규칙을 따르지 않으면 Knowledge Graph는 무용지물입니다.
OWL의 한계: Open World Assumption
OWL은 "열린 세계 가정(Open World Assumption)"을 따릅니다:
에디터 로딩 중...
이것이 SHACL이 필요한 이유입니다.
SHACL: Closed World 검증
W3C SHACL (Shapes Constraint Language)은 **닫힌 세계 가정(Closed World Assumption)**으로 데이터를 검증합니다:
에디터 로딩 중...
오늘의 로드맵
에디터 로딩 중...
왜 "바퀴를 다시 발명"하지 않는가?
세계 최고의 기관들이 이미 만들어 놓은 온톨로지가 있습니다:
| 온톨로지 | 관리 기관 | 도메인 | 노드 수 |
|---|---|---|---|
| Schema.org | Google+MS+Yahoo | 웹 일반 | 800+ 타입 |
| FOAF | 오픈 커뮤니티 | 소셜 | 20+ 클래스 |
| Dublin Core | DCMI | 메타데이터 | 15 프로퍼티 |
| FIBO | EDM Council | 금융 | 1,500+ 클래스 |
이것들을 재사용하면:
- 상호운용성 확보 (다른 시스템과 데이터 교환 가능)
- 설계 시간 단축 (검증된 모델 활용)
- 도구 생태계 활용 (이미 지원하는 도구가 많음)
📖 심화 읽기: 이강배 외, "지식그래프", 유원북스, 2025 — 제4장 SHACL과 데이터 품질
핵심 포인트
- • 데이터 품질 문제가 KG 프로젝트 실패의 38%를 차지 (1위 원인)
- • OWL은 Open World Assumption으로 데이터 검증에 부적합
- • SHACL은 Closed World Assumption으로 실무 데이터 검증 가능
- • 오픈 온톨로지(Schema.org, FOAF 등) 재사용으로 상호운용성 확보