25분
IQR: 이상치를 찾는 공식
Day 4: 이상치 탐지
IQR: 이상치를 찾는 공식
통계 기초: 스토리로 배우는 데이터 분석 > Day 4: 이상치 탐지
학습 목표
IQR의 개념과 계산 방법을 이해한다 IQR 기반 이상치 탐지 규칙을 적용할 수 있다
IQR (Interquartile Range)
사분위 범위 = Q3 - Q1
중앙 50% 데이터의 범위를 나타낸다.
에디터 로딩 중...
IQR 이상치 규칙 (★암기★)
에디터 로딩 중...
왜 1.5배?
통계학자 John Tukey가 경험적으로 정한 값. 정규분포에서 ±1.5×IQR은 약 99.3%의 데이터를 포함. → 이 범위 밖이면 "드문 값"
결제 데이터에 적용
에디터 로딩 중...
결과: 500만원은 확실히 이상치!
이상치 처리 방법
| 방법 | 설명 | 언제 사용 |
|---|---|---|
| 제거 | 분석에서 제외 | 오류/노이즈가 확실할 때 |
| 대체 | 평균/중앙값으로 대체 | 데이터 손실 최소화 |
| 변환 | 로그 변환 등 | 분포를 정규화할 때 |
| 분리 분석 | 이상치만 따로 분석 | 사기 탐지, 특이 케이스 |
| 유지 | 그대로 사용 | 진짜 데이터일 때 |
실무 판단
500만원 결제가 이상치로 감지됐다. 이제 뭘 해야 할까?
에디터 로딩 중...
데이터가 이상치라고 해서 무조건 '나쁜 것'이 아니다. 맥락을 함께 봐야 한다.