현재를 잘 파악하고 앞으로 다가올 미래에 대응하고자 하는 것은 인간 본연의 욕구이다.
하지만 삶은 언제나 불안하고 미래는 미리 알 수 없다.
이러한 한계 속에서도 인간은 현재를 진단하고, 미래를 예측하는 도구를 개발하였다.
바로 ‘통계학’과 이를 활용한 ‘데이터 분석’이다.
책 ‘데이터 분석의 힘’에서는 위의 두 가지 중 ‘데이터 분석’에 더 중점을 두어 인간에게 유용한 도구를 알려준다.
(‘통계학’의 경우 나의 이전 글인 ‘데이터 분석가의 자세’에서 좀 더 다루었다.)
‘들어가며’ 부분에서 저자는 데이터 분석을 초밥집에 비유한다. 초밥집이 장사가 잘 되기 위해서는 초밥의 재료가 신선해야 하고, 이 재료를 초밥으로 정성스럽게 만들어 줄 요리사가 있어야 하며, 이 초밥이 손님에게 맛이 있어야 한다.
데이터 분석에서의 재료는 데이터이고, 이 데이터가 오염되지 않아야 한다. 무결성이 검증된 데이터는 데이터 분석가가 정성스럽게 분석을 수행해야 한다. 마지막으로 이 분석이 고객들이 알고자 하는 바를 제대로 알려줄 수 있어야 한다.
‘1장’에서는 통계에서 상관관계가 인과관계로 바로 치환될 수 없다는 점을 이야기한다.
어떤 회사에서 광고를 늘린 후 아이스크림 판매가 증대했다는 상관관계를 토대로, 광고를 늘리는 행위가 아이스크림 판매로 연결되는 인과관계가 있다고 할 수 있을까? 유독 그 해 여름이 더웠거나 경쟁 회사의 부도로 사람들이 이 회사의 아이스크림을 더 많이 찾았던 건 아닐까? 이렇듯 상관관계에는 다양한 외부 요인이 있을 수 있기 때문에 성급히 인과관계를 결론내어서는 안된다.
‘2장’에서는 데이터 분석 기법 중 RCT기법을 설명한다. 내가 일하는 IT분야에서는 AB테스트로도 불린다.
이 기법의 핵심은 소비자를 무작위로 집단을 나누어 일부 집단에게만 특정 조건을 부여한 후 집단 간의 차이를 비교하는 방법이다. 여기서 ‘무작위’가 중요한 이유는 그래야만 외부 요인에 영향을 덜 받기 때문이다. RCT 기법은 훌륭한 도구이지만 비용이 많이 드는 단점이 있다. 직접 집단을 나누어 실험을 진행해야 하고, 규모가 커질 경우 시도하기가 훨씬 더 어려워지는 방법이다.
‘3장’에서는 데이터 분석 기법 중 RD디자인 기법을 설명한다. RCT기법이 비용이 많이 드는 반면, RD디자인 기법은 현실에 이미 존재하는 데이터를 활용하기 때문에 비용이 훨씬 적게 든다. 특히 이 데이터들이 급격히 변화하는 경계선을 찾아 분석하는 것이 특징이다.
일본 복지 정책 중 70세를 넘어가면 개인의 의료비 부담 비율이 내려가는 정책이 있을 때, 일본 노인들이 70세 전후로 의료 서비스 이용이 급증하는 것이 한 예이다.
‘4장’에서는 데이터 분석 기법 중 집군분석을 설명한다. RD디자인이 급격한 변화가 있는 지점을 관찰했다면, 집군분석은 변화가 계단식으로 있는 데이터를 분석하는 기법이다.
일본의 연비 규제 정책이 대표적인데, 일본 자동차 회사의 차량 수는 연비 규제가 바뀌는 구간마다 급증한다. 일본은 차량의 무게에 따라 연비 규제 강도를 달리 하는데 무게가 많아질수록 그 강도가 약해진다. 그래서 일본 자동차 회사들은 연비 규제의 경계선에 있는 차량들의 무게를 일부러 늘려 규제의 강도를 낮추었다. 데이터 분석을 통해 일본 정부가 연비를 절감하고자 했던 정책이 오히려 연비를 늘리고 있었음을 할 수 있는 예시이다.
‘5장’에서는 데이터 분석 기법 중 패널 데이터 분석을 설명한다. 패널 데이터 분석은 시간의 흐름에 따른 데이터 추이를 파악하는 방법이다.
대표적인 예로 덴마크에서 외국 노동자에 대한 소득세 변경이 어떤 변화를 가져왔는지 분석하는 사례가 있다. 덴마크는 1991년 세제 개혁으로 10만 3000크로네 이상의 소득을 가진 외국인 노동자의 소득세가 대폭 낮아졌다. 그리고 1991년 경계선을 기점으로 맞춰 외국인 이민자 수는 2005년 4배 가까이 늘어났다. 책의 저자는 이 덴마크 사례에서 패널 데이터 분석을 통해 나타난 상관관계를 ‘소득세율이 이민에 영향을 미쳤다’라는 인과관계의 근거로 사용할 수 있는지에 대해 검증해 나간다.
‘6장’에서는 구글, 우버, 페이스북등의 대기업들이 어떻게 데이터 분석을 활용하는지에 대해 설명한다.
구글의 경우 검색을 통해 나오는 문서들의 제목을 41가지의 파란색으로 나누어 사용자들에게 제공한 후 클릭 비율을 분석하였다. 우버의 경우 피크 시간대와 그 외 시간대의 요금 비율을 계산하는 데 데이터 분석을 활용하였다.
‘7장’에서는 데이터 분석의 불완전성을 설명한다. 데이터가 무결하지 않은 경우, 외부 요인이 있을 경우, 특정 기관이 데이터 분석을 자신의 입맛에 맞게 하는 경우 등 데이터 분석에는 많은 검증이 필요하다.
이 책은 제목 그대로 데이터 분석의 힘을 보여준다.
특히 내가 인상깊었던 부분은 일본의 연비 규제 정책에 관한 부분이었다. 일본의 정책 입안자들은 연비를 줄이기 위해 정책을 시행했지만 결과는 정반대로 나온 사례였다. 만일 데이터 분석을 하지 않았다면 자동차 회사들이 오히려 연비를 늘리는 방향으로 경영을 하고 있었다는 사실을 알 수 있었을까? 데이터 분석이 이러한 부분에서 정말 막강한 힘을 가지고 있다고 생각하게 되었다. 현실을 제대로 볼 수 있도록 도와주는 도구로서의 힘 말이다.
데이터 분석을 이제 입문한 내게 이 책은 수 많은 상황에서 데이터를 어떤 방법으로 분석해야 할지에 대해 조금은 알 수 있게 해주었다. 앞으로 데이터 분석을 진행할 때 각 주제의 특성에 맞게 필요한 기법을 활용해보려 한다. 그리고 통계에서 흔히 보이는 상관관계와 인과관계의 오류에 빠지지 않도록 조심해야겠다.
'Books > Data Analysis' 카테고리의 다른 글
빅데이터 커리어 가이드북 (feat. 조성준 교수님) (0) | 2022.04.13 |
---|---|
데이터 분석가의 자세 (0) | 2021.01.17 |