▶️25분
VLM: 표와 이미지를 이해하는 AI
Multimodal VLM: 표와 이미지를 그래프로
VLM: 표와 이미지를 이해하는 AI
GraphRAG > Multimodal VLM: 표와 이미지를 그래프로
학습 목표
VLM: 이미지를 의미적으로 이해하는 AI 모델 OCR은 텍스트만, VLM은 구조와 맥락까지 파악 GPT-4o, Claude 3.5: 테이블 인식 우수
▶️
영상 준비 중
25분
VLM: 표와 이미지를 이해하는 AI
Hook: 실제 문서는 텍스트만이 아니다
기업 보고서, 보험 약관, 논문... 실제 문서의 **30-50%**는 테이블, 차트, 이미지입니다.
에디터 로딩 중...
**VLM(Vision Language Model)**은 이미지를 의미적으로 이해하여 테이블/차트 데이터를 구조화된 형태로 추출합니다.
왜 배우는가?
OCR vs VLM: 패러다임 전환
| 측면 | OCR | VLM |
|---|---|---|
| 텍스트 인식 | ✅ 가능 | ✅ 가능 |
| 구조 이해 | ❌ 불가 | ✅ 가능 |
| 병합 셀 처리 | ❌ 불가 | ✅ 가능 |
| 맥락 파악 | ❌ 불가 | ✅ 가능 |
| 표→JSON 변환 | ❌ 불가 | ✅ 직접 변환 |
핵심 차이: OCR은 "글자"만 읽지만, VLM은 "의미"를 이해합니다.
주요 VLM 모델 비교
| 모델 | 개발사 | 강점 | 테이블 인식 | 비용 |
|---|---|---|---|---|
| GPT-4o | OpenAI | 범용, 정확 | ✅ 우수 | $$$$ |
| Claude 3.5 Sonnet | Anthropic | 긴 문서, 정밀 | ✅ 우수 | $$$ |
| Gemini 1.5 Pro | 멀티턴, 무료 | ⚠️ 보통 | $$ | |
| Upstage Document AI | Upstage | 한국어 특화 | ✅ 우수 | $$ |
추천: 범용 → GPT-4o 또는 Claude 3.5, 한국어 문서 → Upstage
핵심 개념
VLM이 테이블을 처리하는 방식
에디터 로딩 중...
VLM은 테이블을 "이미지"가 아닌 **"구조화된 데이터"**로 인식합니다.
핵심 포인트
- • VLM: 이미지를 의미적으로 이해하는 AI 모델
- • OCR은 텍스트만, VLM은 구조와 맥락까지 파악
- • GPT-4o, Claude 3.5: 테이블 인식 우수
- • 한국어 문서: Upstage Document AI 추천