2. EDA에 도움되는 파이썬 Pandas 함수들

EDA 과정에서 도움이 되는 기본적인 Pandas 함수들을 titanic 데이터를 활용하여 알아보자.

우선, 아래는 예제 데이터이다.

위 데이터를 가지고 Pandas 함수를 사용해보자..!

데이터의 행과 열을 (행, 열) 형식으로 표시해준다.

titanic_train.shape

데이터의 각 컬럼별 자료형을 알려준다.

titanic_train.dtypes

데이터의 컬럼들을 알려준다.

titanic_train.columns

데이터의 일부 row를 앞에서부터 보고 싶을 경우 head 함수를, 뒤에서부터 보고 싶을 경우 tail 함수를 사용한다.

기본 갯수는 5개이며 직접 지정 가능하다.

titanic_train.head()

titanic_train.head(10)

titanic_train.tail()

titanic_train.tail(10)

이건 파이썬 기본 기능이긴 한데 특정 row의 데이터를 보고 싶을 때 유용해서 넣어보았다.

titanic_train[3:5]

데이터의 전반적인 내용을 개략적으로 알려준다.

titanic_train.info()

이 함수는 괄호를 붙일 때와 아닐 때 다른 값을 표시한다.

describe는 데이터 전체 중 일부를 표시해 주는데 사실 이 기능은 head나 tail, [:] 연산과 겹치는 부분이 있어서 많이 애용하진 않는다.

반면 describe()는 컬럼별 평균값, 갯수, 최대/최소값, 표준편차, 하위 25%/50%/75% 값을 표시해주기 때문에 각 컬럼별 특징을 알아내는데 도움이 된다.

titanic_train.describe()

titanic_train.describe

특정 column에서 각각의 값들이 몇개씩 있는지 알려준다.

titanic_train['Survived'].value_counts()

titanic_train['Embarked'].value_counts()

3. DataFrame의 column별 데이터의 분포가 보고 싶을 땐 seaborn.displot() (0)	2023.07.14
1. 결측값을 한눈에 보여주는 missingno (0)	2023.07.01

KorSA