Day 2 점검 | Apache Spark: 대용량 데이터 처리의 시작 | FDE Academy

Q1. Spark에서 가장 권장되는 파일 포맷은?

A. CSVB. JSONC. ParquetD. XML

Q2. df.filter((col("age") > 25) | (col("city") == "서울"))에서 |의 의미는?

A. AND 조건B. OR 조건C. NOT 조건D. XOR 조건

Q3. left_anti join의 결과는?

A. 양쪽 모두에 있는 행B. 왼쪽 테이블에만 있고 오른쪽에 없는 행C. 오른쪽 테이블에만 있는 행D. 양쪽 모두의 합집합

Q4. broadcast join을 사용해야 하는 상황은?

A. 양쪽 테이블이 모두 큰 경우B. 한쪽 테이블이 충분히 작은 경우C. Join 키가 없는 경우D. cross join이 필요한 경우

Q5. rank()와 row_number()의 차이는?

A. 차이 없음B. rank는 동점 시 같은 순위, row_number는 항상 유일C. row_number가 더 빠름D. rank는 정렬 불필요