15분
SQL 잘하면 Spark도 잘한다
Day 2: SQL 잘하면 Spark도 잘한다
SQL 잘하면 Spark도 잘한다
Apache Spark: 대용량 데이터 처리의 시작 > Day 2: SQL 잘하면 Spark도 잘한다
학습 목표
Spark DataFrame과 SQL의 유사성을 이해한다 DataFrame API 학습 동기를 갖는다
어제의 나
"Spark 코드 봤는데 하나도 모르겠어요..."
에디터 로딩 중...
처음 보면 복잡해 보인다. 그런데 이걸 SQL로 바꿔보면?
같은 코드, 다른 문법
Spark DataFrame:
에디터 로딩 중...
SQL:
에디터 로딩 중...
완전히 같은 연산이다.
| SQL | Spark DataFrame |
|---|---|
| SELECT | select() |
| WHERE | filter() / where() |
| GROUP BY | groupBy() |
| ORDER BY | orderBy() / sort() |
| JOIN | join() |
| HAVING | filter() (집계 후) |
Spark SQL도 있다
SQL을 직접 쓰고 싶다면?
에디터 로딩 중...
진짜 SQL을 그대로 쓸 수 있다!
오늘 배울 것
DataFrame API를 마스터하면:
- SELECT, WHERE, GROUP BY, JOIN을 분산 처리로 실행
- 수억 건 데이터를 SQL 문법으로 처리
- pandas보다 익숙한 인터페이스 (SQL 경험자에게)
SQL을 안다면 오늘 안에 Spark DataFrame을 쓸 수 있다.