25

산포도: 데이터의 퍼짐을 측정하는 방법

Day 2: 데이터의 흩어짐

학습 목표

범위, 분산, 표준편차의 개념을 이해한다 각 지표의 계산 방법을 익힌다

범위 (Range)

가장 간단한 산포도: 최대값 - 최소값

에디터 로딩 중...

A팀: 범위 0 (모두 같음) B팀: 범위 1.9 (크게 퍼져 있음)

단점: 극단값 2개만 보기 때문에 중간 값 무시


분산 (Variance)

각 값이 평균에서 얼마나 떨어져 있는지의 평균

에디터 로딩 중...

예제: B팀 분산 계산

에디터 로딩 중...

왜 제곱할까?

  • 음수 편차를 양수로 만들기 위해
  • 멀리 떨어진 값에 더 큰 페널티 부여

Python으로 분산 계산

에디터 로딩 중...

분산의 문제점

분산의 단위가 이상하다.

에디터 로딩 중...

"매출 분산이 0.573억원²입니다"라고 하면 해석이 어렵다. 그래서 표준편차를 쓴다.