이 글은 PRINCIPAL COMPONENT ANALYSIS TUTORIAL을 읽고 정리한 글입니다.
PCA(Principal Component Analysis) 기법은 데이터 분석을 할 때 데이터들의 주성분(Principal Component)을 기준으로 데이터를 구분하는 방법이다.
음식 데이터를 예로 들어보자.
여기엔 돼지고기, 파슬리, 버섯, 미나리 등등 많은 종류의 음식이 있다.
우리가 이 데이터를 일정한 기준으로 분류하고자 할 때 음식의 이름을 기준으로 하면 제대로 나뉘어지지 않을 수 있다.
대부분의 경우 음식의 이름이 음식들의 특성을 나타내지는 않기 때문이다.
반면 비타민C 혹은 섬유질 함유량, 지방 혹은 단백질 함유량을 분류 기준으로 잡으면 어떨까?
이 경우 채소와 과일은 섬유질, 비타민C가 많고 지방과 단백질은 없다.
돼지고기나 양고기는 지방과 단백질이 많지만 섬유질, 비타민C는 없다.
그렇기에 비타민C, 섬유질, 지방, 단백질을 기준으로 데이터를 구분한다면 음식의 이름으로 구분했을 때에 비해 분류가 훨씬 명확해진다. 이 때 비타민C 등이 주성분, 즉 Principal Component(PC)가 된다.
PCA에서는 PC가 너무 적을 경우 분석이 모호해지고 PC가 너무 많을 경우 분석이 복잡해지기 때문에 적당한 개수를 찾는 게 좋다.
PCA는 데이터의 주성분을 기준으로 하긴 하지만 그럼에도 스스로의 분석에 대해 확신이 없을 수 있다.
이럴 땐 데이터 독립성에 중점을 둔 ICA(Independent Component Analysis) 기법을 활용해보자.
ICA는 데이터 간의 가장 독립적인 축을 기준으로 데이터를 분류하기 때문에 데이터를 볼 때 PCA와는 또 다른 관점을 제공해준다.
참고> https://wooono.tistory.com/389
참고> https://engineer-mole.tistory.com/48
'Data Analysis > Data' 카테고리의 다른 글
CNN(Convolutional Neural Networks) (0) | 2022.02.14 |
---|---|
ANN(Artifical Neural Networks) 요약 (0) | 2022.02.11 |
전세계 회사의 딥러닝 모델은 어떻게 운용(Serving)되고 있을까? (0) | 2022.01.27 |
전세계 회사의 데이터 엔지니어는 무슨 일을 할까? (0) | 2022.01.27 |
데이터 분석에서의 Narrative Failure (0) | 2022.01.26 |