45

실습: VLM으로 테이블 데이터 추출

Multimodal VLM: 표와 이미지를 그래프로

학습 목표

Claude/GPT-4o API로 테이블 이미지 → JSON 변환 response_format: json_object로 안정적 출력 (GPT-4o) 병합 셀과 숫자 정확도 반드시 검증

VLM으로 테이블 데이터 추출

실제 테이블 이미지를 VLM API에 전달하여 구조화된 JSON으로 변환합니다.


왜 배우는가?

VLM API 동작 원리

에디터 로딩 중...

GPT-4o와 Claude 모두 base64 인코딩된 이미지를 입력으로 받습니다.


구현 방법

Claude API로 테이블 추출

에디터 로딩 중...

GPT-4o API로 테이블 추출

에디터 로딩 중...

추출 결과 검증 체크리스트

검증 항목방법우선순위
병합 셀 정확도원본 이미지와 비교★★★
숫자 정확도OCR 오류 확인★★★
빈 셀 처리null vs 0 구분★★
헤더/데이터 구분컬럼명 검증★★

GPT-4o vs Claude 3.5 성능 비교

지표GPT-4oClaude 3.5
병합 셀 처리약간 우수우수
긴 테이블보통우수
숫자 정확도우수우수
비용 (1000장)~$50~$30

자주 하는 실수

자주 하는 실수

1. 숫자 검증 없이 사용

에디터 로딩 중...

2. 병합 셀 무시

에디터 로딩 중...

3. JSON 파싱 실패

에디터 로딩 중...
에디터 로딩 중...