Day 3 점검 | Apache Spark: 대용량 데이터 처리의 시작 | FDE Academy

Q1. Catalyst Optimizer가 하지 않는 것은?

A. Predicate Pushdown (조건 먼저 적용)B. Column Pruning (필요한 컬럼만 읽기)C. Python UDF 최적화D. Join 순서 최적화

Q2. explain()에서 Exchange는 무엇을 의미하는가?

A. 데이터 타입 변환B. Shuffle (데이터 재분배)C. 파일 읽기D. Broadcast

Q3. 다음 중 Shuffle이 발생하지 않는 연산은?

A. groupByB. broadcast joinC. repartitionD. distinct

Q4. Python UDF 대신 사용해야 하는 것은?

A. Java UDFB. Spark Built-in 함수C. Lambda 함수D. map 함수

Q5. Predicate Pushdown의 효과는?

A. 컬럼을 줄인다B. 조건에 맞는 데이터만 먼저 필터링한다C. Join 순서를 변경한다D. 파티션 수를 조정한다