본문 바로가기

Data Analysis/EDA

2. EDA에 도움되는 파이썬 Pandas 함수들

 

EDA 과정에서 도움이 되는 기본적인 Pandas 함수들을 titanic 데이터를 활용하여 알아보자.

우선, 아래는 예제 데이터이다.

 

titanic_train 데이터

 

 

위 데이터를 가지고 Pandas 함수를 사용해보자..!

 

 

1. shape

데이터의 행과 열을 (행, 열) 형식으로 표시해준다.

titanic_train.shape

 

2. dtypes

데이터의 각 컬럼별 자료형을 알려준다.

titanic_train.dtypes

 

3. columns

데이터의 컬럼들을 알려준다.

titanic_train.columns

 

4. head & tail

데이터의 일부 row를 앞에서부터 보고 싶을 경우 head 함수를, 뒤에서부터 보고 싶을 경우 tail 함수를 사용한다.

기본 갯수는 5개이며 직접 지정 가능하다.

titanic_train.head()

 

titanic_train.head(10)

 

titanic_train.tail()

 

titanic_train.tail(10)

 

5. [ : ]

이건 파이썬 기본 기능이긴 한데 특정 row의 데이터를 보고 싶을 때 유용해서 넣어보았다.

titanic_train[3:5]

 

6. info

데이터의 전반적인 내용을 개략적으로 알려준다.

titanic_train.info()

 

 

7. describe

이 함수는 괄호를 붙일 때와 아닐 때 다른 값을 표시한다. 

describe는 데이터 전체 중 일부를 표시해 주는데 사실 이 기능은 head나 tail, [:] 연산과 겹치는 부분이 있어서 많이 애용하진 않는다.

반면 describe()는 컬럼별 평균값, 갯수, 최대/최소값, 표준편차, 하위 25%/50%/75% 값을 표시해주기 때문에 각 컬럼별 특징을 알아내는데 도움이 된다.

 

titanic_train.describe()

 

titanic_train.describe

 

8. value_counts

특정 column에서 각각의 값들이 몇개씩 있는지 알려준다.

titanic_train['Survived'].value_counts()

 

titanic_train['Embarked'].value_counts()

 

반응형