▶️25

VLM: 표와 이미지를 이해하는 AI

Multimodal VLM: 표와 이미지를 그래프로

학습 목표

VLM: 이미지를 의미적으로 이해하는 AI 모델 OCR은 텍스트만, VLM은 구조와 맥락까지 파악 GPT-4o, Claude 3.5: 테이블 인식 우수

▶️

영상 준비 중

25

VLM: 표와 이미지를 이해하는 AI

Hook: 실제 문서는 텍스트만이 아니다

기업 보고서, 보험 약관, 논문... 실제 문서의 **30-50%**는 테이블, 차트, 이미지입니다.

에디터 로딩 중...

**VLM(Vision Language Model)**은 이미지를 의미적으로 이해하여 테이블/차트 데이터를 구조화된 형태로 추출합니다.


왜 배우는가?

OCR vs VLM: 패러다임 전환

측면OCRVLM
텍스트 인식✅ 가능✅ 가능
구조 이해❌ 불가✅ 가능
병합 셀 처리❌ 불가✅ 가능
맥락 파악❌ 불가✅ 가능
표→JSON 변환❌ 불가✅ 직접 변환

핵심 차이: OCR은 "글자"만 읽지만, VLM은 "의미"를 이해합니다.

주요 VLM 모델 비교

모델개발사강점테이블 인식비용
GPT-4oOpenAI범용, 정확✅ 우수$$$$
Claude 3.5 SonnetAnthropic긴 문서, 정밀✅ 우수$$$
Gemini 1.5 ProGoogle멀티턴, 무료⚠️ 보통$$
Upstage Document AIUpstage한국어 특화✅ 우수$$

추천: 범용 → GPT-4o 또는 Claude 3.5, 한국어 문서 → Upstage


핵심 개념

VLM이 테이블을 처리하는 방식

에디터 로딩 중...

VLM은 테이블을 "이미지"가 아닌 **"구조화된 데이터"**로 인식합니다.

핵심 포인트
  • VLM: 이미지를 의미적으로 이해하는 AI 모델
  • OCR은 텍스트만, VLM은 구조와 맥락까지 파악
  • GPT-4o, Claude 3.5: 테이블 인식 우수
  • 한국어 문서: Upstage Document AI 추천