관리 메뉴

KorSA

데이터 분석의 고전 - PCA (Principal Component Analysis) 본문

Data Analysis/Data

데이터 분석의 고전 - PCA (Principal Component Analysis)

Praiv. 2022. 2. 8. 18:36
320x100

PCA와 ICA

 

 

이 글은 PRINCIPAL COMPONENT ANALYSIS TUTORIAL을 읽고 정리한 글입니다.

 

Principal Component Analysis Tutorial

You are exploring the nutritional content of food. How can food items be differentiated? How might they be classified? PCA derives underlying variables that help you slice your data for these insig…

algobeans.com

 

 

 

PCA(Principal Component Analysis) 기법은 데이터 분석을 할 때 데이터들의 주성분(Principal Component)을 기준으로 데이터를 구분하는 방법이다.

 

음식 데이터를 예로 들어보자.

 

여기엔 돼지고기, 파슬리, 버섯, 미나리 등등 많은 종류의 음식이 있다.

우리가 이 데이터를 일정한 기준으로 분류하고자 할 때 음식의 이름을 기준으로 하면 제대로 나뉘어지지 않을 수 있다.

대부분의 경우 음식의 이름이 음식들의 특성을 나타내지는 않기 때문이다.

 

반면 비타민C 혹은 섬유질 함유량, 지방 혹은 단백질 함유량을 분류 기준으로 잡으면 어떨까?

 

이 경우 채소와 과일은 섬유질, 비타민C가 많고 지방과 단백질은 없다.

돼지고기나 양고기는 지방과 단백질이 많지만 섬유질, 비타민C는 없다.

 

그렇기에 비타민C, 섬유질, 지방, 단백질을 기준으로 데이터를 구분한다면 음식의 이름으로 구분했을 때에 비해 분류가 훨씬 명확해진다. 이 때 비타민C 등이 주성분, 즉 Principal Component(PC)가 된다.

 

PCA에서는 PC가 너무 적을 경우 분석이 모호해지고 PC가 너무 많을 경우 분석이 복잡해지기 때문에 적당한 개수를 찾는 게 좋다.

 

PCA는 데이터의 주성분을 기준으로 하긴 하지만 그럼에도 스스로의 분석에 대해 확신이 없을 수 있다.

이럴 땐 데이터 독립성에 중점을 둔 ICA(Independent Component Analysis) 기법을 활용해보자.

 

ICA는 데이터 간의 가장 독립적인 축을 기준으로 데이터를 분류하기 때문에 데이터를 볼 때 PCA와는 또 다른 관점을 제공해준다.

 

 

 

 

참고> https://blog.naver.com/PostView.naver?blogId=dndusdndus21&logNo=220323666085&redirect=Dlog&widgetTypeCall=true&directAccess=false 

 

PCA ICA 알고리즘

PCA와 ICA 모두 Dimension Reduction에 해당하는 기술이다. Dimension Reduction 분석법인 PC...

blog.naver.com

참고> https://wooono.tistory.com/389

 

[ML] PCA 와 ICA 란?

들어가기 앞서, PCA(Principal Component Analysis) 와 ICA(Independent Componenet Analysis) 는 모두 차원 축소에 사용되는 기술이다. 주성분 분석 (PCA, Principal Component Analysis) PCA 는 기본적으로 비지..

wooono.tistory.com

 

참고> https://engineer-mole.tistory.com/48

 

[python] PCA와 ICA의 개요와 차이점

1. 개요 PCA와 ICA모두Dimension reduction에 해당하는 기술이다. 1) PCA란  PCA(; Principal Component Analysis)는 기본적으로 unsupervised learning이며, 상관관계가 있는 다수의 변수로부터 상관관계가 없는..

engineer-mole.tistory.com

 

728x90
728x90
Comments