EDA 과정에서 도움이 되는 기본적인 Pandas 함수들을 titanic 데이터를 활용하여 알아보자.
우선, 아래는 예제 데이터이다.

위 데이터를 가지고 Pandas 함수를 사용해보자..!
1. shape
데이터의 행과 열을 (행, 열) 형식으로 표시해준다.
titanic_train.shape

2. dtypes
데이터의 각 컬럼별 자료형을 알려준다.
titanic_train.dtypes

3. columns
데이터의 컬럼들을 알려준다.
titanic_train.columns

4. head & tail
데이터의 일부 row를 앞에서부터 보고 싶을 경우 head 함수를, 뒤에서부터 보고 싶을 경우 tail 함수를 사용한다.
기본 갯수는 5개이며 직접 지정 가능하다.
titanic_train.head()

titanic_train.head(10)

titanic_train.tail()

titanic_train.tail(10)

5. [ : ]
이건 파이썬 기본 기능이긴 한데 특정 row의 데이터를 보고 싶을 때 유용해서 넣어보았다.
titanic_train[3:5]

6. info
데이터의 전반적인 내용을 개략적으로 알려준다.
titanic_train.info()

7. describe
이 함수는 괄호를 붙일 때와 아닐 때 다른 값을 표시한다.
describe는 데이터 전체 중 일부를 표시해 주는데 사실 이 기능은 head나 tail, [:] 연산과 겹치는 부분이 있어서 많이 애용하진 않는다.
반면 describe()는 컬럼별 평균값, 갯수, 최대/최소값, 표준편차, 하위 25%/50%/75% 값을 표시해주기 때문에 각 컬럼별 특징을 알아내는데 도움이 된다.
titanic_train.describe()

titanic_train.describe

8. value_counts
특정 column에서 각각의 값들이 몇개씩 있는지 알려준다.
titanic_train['Survived'].value_counts()

titanic_train['Embarked'].value_counts()

반응형
'Data Analysis > EDA' 카테고리의 다른 글
| 3. DataFrame의 column별 데이터의 분포가 보고 싶을 땐 seaborn.displot() (0) | 2023.07.14 |
|---|---|
| 1. 결측값을 한눈에 보여주는 missingno (0) | 2023.07.01 |