30분

GROUP BY: 그룹별 집계의 마법

Day 2: SQL 잘하면 Spark도 잘한다

학습 목표

groupBy()와 agg()로 그룹별 집계를 수행할 수 있다 다양한 집계 함수를 활용할 수 있다

SQL ↔ Spark GROUP BY

SQL:

에디터 로딩 중...

Spark:

에디터 로딩 중...

주요 집계 함수

함수	설명
count("*")	row 수
sum("col")	합계
avg("col")	평균
min("col")	최솟값
max("col")	최댓값
countDistinct("col")	고유값 수
collect_list("col")	리스트로 수집
collect_set("col")	중복 제거 후 수집
stddev("col")	표준편차

주의: Python 내장 함수와 충돌

에디터 로딩 중...

에디터 로딩 중...

힌트 보기

• groupBy("col").agg(...) 패턴
• alias()로 컬럼 이름 지정
• sum, min, max는 _sum, _min, _max로 import
• collect_set은 중복 제거, collect_list는 중복 포함

정답 보기

에디터 로딩 중...