07.AI
통계 - 결측치 (Missing Value)
Mr. Slumber
2023. 11. 18. 05:57
728x90
반응형
통계 결측치의 개요
- 결측치는 실험이나 조사시 설문문항 이해의 부족, 부정적 태도, 무관심, 부주의등 이유로 관측되어야 할 값을 얻지 못한 데이터로 전처리 단계에서 적절한 값으로 처리가 필요한 데이터
통계처리 결측치 처리 방안
- 삭제: 결측치가 있는 행이나 열을 전체적으로 제거합니다. 이 방법은 데이터 손실을 초래할 수 있으므로 주의해야 합니다.
- 평균값, 중앙값 또는 최빈값으로 대체: 결측치를 해당 열의 평균값, 중앙값 또는 최빈값으로 대체합니다. 수치형 데이터에 주로 사용됩니다.
- 예측 모델 사용: 다른 변수들을 기반으로 결측값을 예측하는 모델을 사용할 수 있습니다. 이는 더 정교한 방법이지만 복잡합니다.
- 카테고리 할당: 범주형 데이터의 경우, 결측치를 하나의 별도 범주로 처리할 수 있습니다.
1)Deletion(제거법)
List-wise deletion(완전제거법)
- 하나의 변수라도 결측치 존재시 분석 대상에서 제외
- 모든 변수 값 존재시만 분석 대상에 포함
2)Single Imputation (단일대체법)
평균대체방법
- 관측 자료의 평균값으로 대체
- 편향된 추정치 발생시킬 수 있음
연역적 대체방법

-논리적 제약조건, 다른 기록에 의거하여 결측값을 논리적 유추값으로 이용하는 방법
일치대응대체법
- 결측된 정보를 다른 조사자료로부터 얻을 수 있는경우
- 동일한 조사단위에 해당하는 다른 외부자료의값으로 대체하는 방법
핫덱대체(Hot-deck) -동일한 특성 응답값 중에서 랜덤 추출하여 대체
회귀대체방법

- 회귀분석 : 결측치가 포함되어 있는 변수를 종속변수, 다른 변수들을 독립변수로 분석
- 회귀분석을 실시한 결과 얻은 추정치를 결측치의 대체값 사용
3)Multiple Imputation(다중대체법)
- 한번 이상 결측을 대체
- 대체한 완전한 데이터 셋트 m(m>1)개 만들어서 모수 측정한 후 모수 추정치와 표준오차를 결합하여 모형 개발
- 대체값을 구한 후 자료 분석 추정된 계수 통합
https://seeyapangpang.tistory.com/9
결측값 결측치 종류 및 대체 (MCAR MAR MNAR) [빅공남! 통계 같이 공부해요]
결측값 결측치 (Missing Value) 유형 무엇인지, 그리고 결측값을 어떻게 대체할 것인가는 통계, 빅데이터를 다루는 입장에서 중요한 문제중에 하나입니다. 지난 포스팅에서는 결측치 vs 이상치 또는
seeyapangpang.tistory.com
728x90