30

GROUP BY: 그룹별 집계의 마법

Day 2: SQL 잘하면 Spark도 잘한다

학습 목표

groupBy()와 agg()로 그룹별 집계를 수행할 수 있다 다양한 집계 함수를 활용할 수 있다

SQL ↔ Spark GROUP BY

SQL:

에디터 로딩 중...

Spark:

에디터 로딩 중...

주요 집계 함수

함수설명
count("*")row 수
sum("col")합계
avg("col")평균
min("col")최솟값
max("col")최댓값
countDistinct("col")고유값 수
collect_list("col")리스트로 수집
collect_set("col")중복 제거 후 수집
stddev("col")표준편차

주의: Python 내장 함수와 충돌

에디터 로딩 중...
에디터 로딩 중...
힌트 보기
  • groupBy("col").agg(...) 패턴
  • alias()로 컬럼 이름 지정
  • sum, min, max는 _sum, _min, _max로 import
  • collect_set은 중복 제거, collect_list는 중복 포함
정답 보기
에디터 로딩 중...