코스 목록 / Spark
Spark SQL과 적응형 셔플 튜닝
대규모 변환 작업에서 셔플 비용을 줄이는 패턴과 디버깅 루틴을 반복합니다.
커리큘럼 서사
Spark SQL 실행 계획을 읽고, 스파크 UI에서 스테이지 병목을 분리하는 훈련을 합니다. AQE 옵션과 스파크 히스토리 서버 로그를 연결해 재현 가능한 리포트를 작성합니다. 팀 업스킬링 그룹을 위해 페어 리뷰 세션을 옵션으로 넣었습니다.
포함 요소
- 실행 계획 읽기와 스캔/셔플 분리 연습
- AQE 관련 플래그를 바꿔가며 비용 곡선 비교
- 파티션 프루닝과 버킷 전략 실습 세트
- 스파크 히스토리 서버에서 실패 태스크 재현
- 업무용 노트북 템플릿(한국어 주석)
- 페어 리뷰 2회(팀 등록 시)
러너 아웃컴
- 셔플이 과도한 쿼리를 식별하고 재작성 초안을 제시합니다.
- 실패한 스테이지를 로그만으로 재현 절차를 문서화합니다.
- 운영 환경에 맞는 AQE 설정 초안을 작성합니다.
코스 리드
박라온
대형 로그 집계 파이프라인 리드.
코호트 메모
Spark SQL 모듈의 실행 계획 스크린샷을 주간 리뷰에 올리면, 멘토가 “여기서 스캔을 줄일 수 있다”고 정확히 짚어줬어요. 야근 없이 병목을 줄였습니다.
세부 FAQ
네. PySpark 중심으로 진행하며, JVM 튜닝은 개념 소개 수준입니다.