25

IQR: 이상치를 찾는 공식

Day 4: 이상치 탐지

학습 목표

IQR의 개념과 계산 방법을 이해한다 IQR 기반 이상치 탐지 규칙을 적용할 수 있다

IQR (Interquartile Range)

사분위 범위 = Q3 - Q1

중앙 50% 데이터의 범위를 나타낸다.

에디터 로딩 중...

IQR 이상치 규칙 (★암기★)

에디터 로딩 중...

왜 1.5배?

통계학자 John Tukey가 경험적으로 정한 값. 정규분포에서 ±1.5×IQR은 약 99.3%의 데이터를 포함. → 이 범위 밖이면 "드문 값"


결제 데이터에 적용

에디터 로딩 중...

결과: 500만원은 확실히 이상치!


이상치 처리 방법

방법설명언제 사용
제거분석에서 제외오류/노이즈가 확실할 때
대체평균/중앙값으로 대체데이터 손실 최소화
변환로그 변환 등분포를 정규화할 때
분리 분석이상치만 따로 분석사기 탐지, 특이 케이스
유지그대로 사용진짜 데이터일 때

실무 판단

500만원 결제가 이상치로 감지됐다. 이제 뭘 해야 할까?

에디터 로딩 중...

데이터가 이상치라고 해서 무조건 '나쁜 것'이 아니다. 맥락을 함께 봐야 한다.