2021년, 올해 목표로 삼은 도전이 하나 있다.
데이터 분석 유튜브 채널을 개설하고 50개의 컨텐츠를 만드는 것.
30대의 첫 발자국을 떼며 내가 이 목표를 세운 이유는
앞으로의 삶을 소비자가 아닌 생산자로 살아가고 싶었기 때문이다.
내가 생산자로서 무엇을 할 수 있을까 생각하던 중
앞으로 펼쳐질 빅데이터 시대에는 “데이터의 부익부 빈익빈”이 발생할수도 있겠단 생각이 들었다.
정보화 시대에 들어서 인터넷상의 데이터들은 흘러 넘치지만,
이를 잘 활용할 수 있는 사람들과 그렇지 못한 사람들간의 차이는 데이터 활용의 양극화를 낳게 될 것이기 때문이다.
이 양극화를 해소하는 데 나의 IT 기술을 활용하면 좋겠다 싶어서 시작한 게 “데이터 분석 유튜브 채널” 개설이다.
하지만 코딩은 해봤어도 데이터 분석은 해본 적이 없었기에,
1월 첫 주 마이크까지 사가며 만드려고 했던 나의 첫 데이터 분석 컨텐츠는 둘째 주까지 보이지 않았다. (어디있니..)
유튜브 컨텐츠를 만들기에 앞서 먼저 해야할 건 데이터 분석에 대한 이해라 판단했고,
그러다 읽게 된 책이 “통계학, 빅데이터를 잡다”라는 책이었다.
이 책의 1장에서 2장까지의 내용은 통계학이 현재 어떠한 위치에 있는지 말해준다.
인공지능, 딥러닝, 빅데이터 등 IT 기술의 발달로 컴퓨터 활용 능력이 대폭 향상되었고, 통계학은 이러한 기술의 발전을 이용해 강력한 도구로 활용된다. 특히 비즈니스 분석 영역에서는 통계학이 컴퓨팅 능력과 함께 ‘데이터 사이언스’라는 분야를 이루고 있다.
앤더슨의 ‘이론의 종말’이라는 글에서는 빅데이터 분석이 모든 이론적인 분석들을 대체한다는 주장도 있다.
기존의 스몰데이터(빅데이터 이전에 일반적인 실험이나 관찰을 통해 만들어진 데이터)를 이용한 이론적인 분석은 인과관계를 중심으로 진행되어 왔지만, 빅데이터를 활용하면 인과관계를 따질 필요없이 상관관계만으로도 많은 것을 알 수 있다는 의미이다.
하지만 이 책의 저자는 통계학이 빅데이터를 통해 많은 일을 할 수는 있지만,
스몰데이터를 통해서 할 수 있는 분석들을 모두 대체할 순 없기에 이 둘은 상호 보완적인 관계라고 본다.
3장에서는 통계학의 의미를 설명하면서 행운과 불운을 관장하는 여신 포르투나와 과학의 여신 사피엔시아가 나온다.
이 두 여신은 서로 별개의 존재로 여겨졌다.
포르투나는 신의 영역에 있는 존재였고, 사피엔시아는 인간 이성의 영역에 있는 존재였다.
하지만 통계학이 등장하자 이 두 여신간의 경계가 모호해졌다. 신의 영역이라 느꼈던 행운과 불운을 사람들은 수학이라는 도구를 이용해 확률과 통계로 나타내기 시작한 것이었다. 통계학이 나오기 시작하면서 사람들은 우연을 과학의 영역으로 길들인 것이었다.
4장부터 7장까지는 통계학이 인간사의 여러 분야에서 어떻게 활용되어 왔는지에 대해서 이야기한다.
통계학은 19세기 사혈의 문제점, 콜레라와 두창에 대한 백신의 능력 등을 밝히는데 활용되었고, 정책 입안자들이 어떤 정책을 취할 것인지, 지구상에 존재하는 생물의 개체 수는 얼마나 되는지에 대한 예측 등에도 사용되어왔다.
이 책을 읽으며 데이터 분석의 필수 요소로 ‘통계학’이 있다는 점을 알게 되었다. 나는 데이터 분석을 시작하기로 마음을 먹으면서 단순히 Python, R 등의 IT 기술을 이용해서 진행하면 되겠지라는 생각을 했었다.
하지만 이러한 관점은 IT 개발자의 시선으로 바라본 데이터 분석일 뿐이고, 정말로 중요한 건 ‘통계학’이라는 학문이다. 앞으로 데이터 분석 컨텐츠를 만들면서 통계학에 대한 공부도 진행해야겠다.
또한 통계 지표의 검증과 통계를 다루는 사람의 윤리가 중요하다는 점도 알게 되었다. 이건 전혀 생각하지 못했던 부분이었는데, 책에서는 같은 현상과 같은 대상을 놓고도 정반대로 통계 지표를 도출하는 두 기관에 대한 이야기가 있다. 같은 것을 보고도 누가 보았느냐에 따라 통계가 달라질 수 있다는 점에서 앞으로 통계 지표를 알아볼 때 경각심을 가져야겠다.
책에서는 ‘프로크루스테스의 침대‘를 언급한다. 프로크루스테스는 그리스 신화에 나오는 괴물로서 사람을 잡아 자신의 침대에 묶은 후, 그 사람이 침대보다 크면 빠져나온 부분을 자르고 침대보다 작으면 몸을 늘려버린다.
만일 통계 데이터를 다루는 사람이 자신이 원하는 결과를 도출하기 위해 데이터를 늘리거나 잘라버리면 이는 아무런 의미도 없고 쓸모도 없는 통계 지표만 생산할 뿐이다.
더 최악인 것은 이렇게 만들어진 통계 데이터가 세상을 보는 관점을 왜곡시킨다는 점이다. 세상을 제대로 바라보지 못하게 하기 때문에 제대로 된 해결책도 찾을 수 없고, 불필요한 오해와 갈등만 양산한다. 데이터를 다루는 사람으로서 이러한 윤리의식은 꼭 필요함을 느낄 수 있었다.
'Books > Data Analysis' 카테고리의 다른 글
빅데이터 커리어 가이드북 (feat. 조성준 교수님) (0) | 2022.04.13 |
---|---|
현재를 잘 아는 방법 (0) | 2021.01.17 |