25분
산포도: 데이터의 퍼짐을 측정하는 방법
Day 2: 데이터의 흩어짐
산포도: 데이터의 퍼짐을 측정하는 방법
통계 기초: 스토리로 배우는 데이터 분석 > Day 2: 데이터의 흩어짐
학습 목표
범위, 분산, 표준편차의 개념을 이해한다 각 지표의 계산 방법을 익힌다
범위 (Range)
가장 간단한 산포도: 최대값 - 최소값
에디터 로딩 중...
A팀: 범위 0 (모두 같음) B팀: 범위 1.9 (크게 퍼져 있음)
단점: 극단값 2개만 보기 때문에 중간 값 무시
분산 (Variance)
각 값이 평균에서 얼마나 떨어져 있는지의 평균
에디터 로딩 중...
예제: B팀 분산 계산
에디터 로딩 중...
왜 제곱할까?
- 음수 편차를 양수로 만들기 위해
- 멀리 떨어진 값에 더 큰 페널티 부여
Python으로 분산 계산
에디터 로딩 중...
분산의 문제점
분산의 단위가 이상하다.
에디터 로딩 중...
"매출 분산이 0.573억원²입니다"라고 하면 해석이 어렵다. 그래서 표준편차를 쓴다.