20

Kafka 연동: 실무 표준 조합

Structured Streaming: 배치처럼 쓰는 스트리밍

학습 목표

Kafka Source 설정 방법을 안다 JSON 메시지 파싱 방법을 이해한다 Kafka Sink 설정 방법을 안다

Kafka + Spark: 실무의 표준

실무에서 스트리밍 파이프라인의 90%는 이 조합:

에디터 로딩 중...

Kafka Source 설정

에디터 로딩 중...

주요 옵션

옵션설명권장값
startingOffsets시작 위치latest (운영), earliest (개발)
maxOffsetsPerTrigger배치당 최대 레코드10000-100000
failOnDataLoss오프셋 손실 시 동작false
minPartitions최소 파티션 수Kafka 파티션 수

Kafka 메시지 구조

Kafka에서 읽으면 이런 스키마:

에디터 로딩 중...

value가 binary라서 파싱이 필요하다!


JSON 파싱

에디터 로딩 중...

잘못된 JSON 처리

에디터 로딩 중...

Kafka Sink

에디터 로딩 중...

실무 설정 예시

에디터 로딩 중...