When
분석하고자 하는 데이터 중 어디가 얼만큼 비어있는지(결측값) 확인할 때 유용하다.
missingno를 쓰면 데이터가 존재하는 부분은 검은색으로, 존재하지 않는 부분은 하얀색으로 표시된다.
Result
titanic_data는 train 데이터 뒤에 test 데이터를 덧붙인 데이터이기 때문에
위 그림에서 Survived 뒤쪽이 전부 하얗다. test 데이터는 모두 Survived 값이 없기 때문이다.
Code
import missingno
missingno.matrix(titanic_data, figsize=(12,6))
Data
Kaggle Titanic Data
반응형
'Data Analysis > EDA' 카테고리의 다른 글
3. DataFrame의 column별 데이터의 분포가 보고 싶을 땐 seaborn.displot() (0) | 2023.07.14 |
---|---|
2. EDA에 도움되는 파이썬 Pandas 함수들 (0) | 2023.07.03 |