30분
GROUP BY: 그룹별 집계의 마법
Day 2: SQL 잘하면 Spark도 잘한다
GROUP BY: 그룹별 집계의 마법
Apache Spark: 대용량 데이터 처리의 시작 > Day 2: SQL 잘하면 Spark도 잘한다
학습 목표
groupBy()와 agg()로 그룹별 집계를 수행할 수 있다 다양한 집계 함수를 활용할 수 있다
SQL ↔ Spark GROUP BY
SQL:
에디터 로딩 중...
Spark:
에디터 로딩 중...
주요 집계 함수
| 함수 | 설명 |
|---|---|
| count("*") | row 수 |
| sum("col") | 합계 |
| avg("col") | 평균 |
| min("col") | 최솟값 |
| max("col") | 최댓값 |
| countDistinct("col") | 고유값 수 |
| collect_list("col") | 리스트로 수집 |
| collect_set("col") | 중복 제거 후 수집 |
| stddev("col") | 표준편차 |
주의: Python 내장 함수와 충돌
에디터 로딩 중...
에디터 로딩 중...
힌트 보기
- • groupBy("col").agg(...) 패턴
- • alias()로 컬럼 이름 지정
- • sum, min, max는 _sum, _min, _max로 import
- • collect_set은 중복 제거, collect_list는 중복 포함
정답 보기
에디터 로딩 중...