45분
실습: VLM으로 테이블 데이터 추출
Multimodal VLM: 표와 이미지를 그래프로
실습: VLM으로 테이블 데이터 추출
GraphRAG > Multimodal VLM: 표와 이미지를 그래프로
학습 목표
Claude/GPT-4o API로 테이블 이미지 → JSON 변환 response_format: json_object로 안정적 출력 (GPT-4o) 병합 셀과 숫자 정확도 반드시 검증
VLM으로 테이블 데이터 추출
실제 테이블 이미지를 VLM API에 전달하여 구조화된 JSON으로 변환합니다.
왜 배우는가?
VLM API 동작 원리
에디터 로딩 중...
GPT-4o와 Claude 모두 base64 인코딩된 이미지를 입력으로 받습니다.
구현 방법
Claude API로 테이블 추출
에디터 로딩 중...
GPT-4o API로 테이블 추출
에디터 로딩 중...
추출 결과 검증 체크리스트
| 검증 항목 | 방법 | 우선순위 |
|---|---|---|
| 병합 셀 정확도 | 원본 이미지와 비교 | ★★★ |
| 숫자 정확도 | OCR 오류 확인 | ★★★ |
| 빈 셀 처리 | null vs 0 구분 | ★★ |
| 헤더/데이터 구분 | 컬럼명 검증 | ★★ |
GPT-4o vs Claude 3.5 성능 비교
| 지표 | GPT-4o | Claude 3.5 |
|---|---|---|
| 병합 셀 처리 | 약간 우수 | 우수 |
| 긴 테이블 | 보통 | 우수 |
| 숫자 정확도 | 우수 | 우수 |
| 비용 (1000장) | ~$50 | ~$30 |
자주 하는 실수
자주 하는 실수
1. 숫자 검증 없이 사용
에디터 로딩 중...
2. 병합 셀 무시
에디터 로딩 중...
3. JSON 파싱 실패
에디터 로딩 중...
에디터 로딩 중...