45분

실습: VLM으로 테이블 데이터 추출

Multimodal VLM: 표와 이미지를 그래프로

학습 목표

Claude/GPT-4o API로 테이블 이미지 → JSON 변환 response_format: json_object로 안정적 출력 (GPT-4o) 병합 셀과 숫자 정확도 반드시 검증

VLM으로 테이블 데이터 추출

실제 테이블 이미지를 VLM API에 전달하여 구조화된 JSON으로 변환합니다.

왜 배우는가?

VLM API 동작 원리

에디터 로딩 중...

GPT-4o와 Claude 모두 base64 인코딩된 이미지를 입력으로 받습니다.

구현 방법

Claude API로 테이블 추출

에디터 로딩 중...

GPT-4o API로 테이블 추출

에디터 로딩 중...

추출 결과 검증 체크리스트

검증 항목	방법	우선순위
병합 셀 정확도	원본 이미지와 비교	★★★
숫자 정확도	OCR 오류 확인	★★★
빈 셀 처리	null vs 0 구분	★★
헤더/데이터 구분	컬럼명 검증	★★

GPT-4o vs Claude 3.5 성능 비교

지표	GPT-4o	Claude 3.5
병합 셀 처리	약간 우수	우수
긴 테이블	보통	우수
숫자 정확도	우수	우수
비용 (1000장)	~$50	~$30

자주 하는 실수

자주 하는 실수

1. 숫자 검증 없이 사용

에디터 로딩 중...

2. 병합 셀 무시

에디터 로딩 중...

3. JSON 파싱 실패

에디터 로딩 중...

에디터 로딩 중...