본문 바로가기

Data Analysis/EDA

(3)
3. DataFrame의 column별 데이터의 분포가 보고 싶을 땐 seaborn.displot() 각 컬럼별로 어느 구간에 데이터가 몰려있는지 알고 싶다면 seaborn의 displot을 사용해보자. import random import seaborn as sns rand_data = [] for _ in range(1, 10000): # 10000개의 난수 생성 rand_data.insert(0, random.randrange(0, 10001)) # 생성된 난수는 0~10000 사이의 값을 가짐 sns.displot(data = rand_data, kind='kde').set(title='Random Values') 위의 예제는 0~10000개의 난수를 생성하여 rand_data 배열에 넣고 이 난수들의 분포를 seaborn을 통해 시각화하는 코드이다. 참고로, 각 난수는 0~10000 사이의 값을..
2. EDA에 도움되는 파이썬 Pandas 함수들 EDA 과정에서 도움이 되는 기본적인 Pandas 함수들을 titanic 데이터를 활용하여 알아보자. 우선, 아래는 예제 데이터이다. 위 데이터를 가지고 Pandas 함수를 사용해보자..! 1. shape 데이터의 행과 열을 (행, 열) 형식으로 표시해준다. titanic_train.shape 2. dtypes 데이터의 각 컬럼별 자료형을 알려준다. titanic_train.dtypes 3. columns 데이터의 컬럼들을 알려준다. titanic_train.columns 4. head & tail 데이터의 일부 row를 앞에서부터 보고 싶을 경우 head 함수를, 뒤에서부터 보고 싶을 경우 tail 함수를 사용한다. 기본 갯수는 5개이며 직접 지정 가능하다. titanic_train.head() tit..
1. 결측값을 한눈에 보여주는 missingno When 분석하고자 하는 데이터 중 어디가 얼만큼 비어있는지(결측값) 확인할 때 유용하다. missingno를 쓰면 데이터가 존재하는 부분은 검은색으로, 존재하지 않는 부분은 하얀색으로 표시된다. Result titanic_data는 train 데이터 뒤에 test 데이터를 덧붙인 데이터이기 때문에 위 그림에서 Survived 뒤쪽이 전부 하얗다. test 데이터는 모두 Survived 값이 없기 때문이다. Code import missingno missingno.matrix(titanic_data, figsize=(12,6)) Data Kaggle Titanic Data