15

SQL 잘하면 Spark도 잘한다

Day 2: SQL 잘하면 Spark도 잘한다

학습 목표

Spark DataFrame과 SQL의 유사성을 이해한다 DataFrame API 학습 동기를 갖는다

어제의 나

"Spark 코드 봤는데 하나도 모르겠어요..."

에디터 로딩 중...

처음 보면 복잡해 보인다. 그런데 이걸 SQL로 바꿔보면?


같은 코드, 다른 문법

Spark DataFrame:

에디터 로딩 중...

SQL:

에디터 로딩 중...

완전히 같은 연산이다.

SQLSpark DataFrame
SELECTselect()
WHEREfilter() / where()
GROUP BYgroupBy()
ORDER BYorderBy() / sort()
JOINjoin()
HAVINGfilter() (집계 후)

Spark SQL도 있다

SQL을 직접 쓰고 싶다면?

에디터 로딩 중...

진짜 SQL을 그대로 쓸 수 있다!


오늘 배울 것

DataFrame API를 마스터하면:

  • SELECT, WHERE, GROUP BY, JOIN을 분산 처리로 실행
  • 수억 건 데이터를 SQL 문법으로 처리
  • pandas보다 익숙한 인터페이스 (SQL 경험자에게)

SQL을 안다면 오늘 안에 Spark DataFrame을 쓸 수 있다.