Data Analysis/Data (14) 썸네일형 리스트형 축구에서 골이 나올 확률을 계산하려면 Random Forest를 써보자 이 글은 "RANDOM FOREST TUTORIAL: PREDICTING GOALS IN SOCCER"를 읽고 작성한 글입니다. 축구에서 골이 나올 확률을 계산하고자 할때, 유용한 방법으로 Random Forest가 있다. Random Forest를 말하기 전에, 주어지는 데이터를 살펴보면 다음과 같다. 1. 슈팅한 위치와 골대와의 거리 2. 슈팅한 위치와 골대와의 각도 3. 공격팀의 수준 4. 수비팀의 수준 5. 슈팅하는 선수의 포지션(미드필더, 수비수, 공격수, 골키퍼 등..) 우리의 예측 모델은 위의 정보가 주어졌을 때 슈팅이 골로 연결되는지 안되는지 예측한다. Random Forest는 위에서 주어진 정보와 실제 골 여부를 바탕으로 여러 개의 Decision Tree를 실행한다. 각 Decisio.. 단어에 사칙 연산을 할 수 있다면..? (feat. Word Embedding Model) 이 글은 "MAPPING GLOBAL CUISINE WITH WORD EMBEDDINGS"를 읽고 작성한 글입니다. 단어에 사칙 연산을 사용할 수 있다면 어떨까? 만약 번화가에서 팔고 있는 타르타르(Tartare)와 비슷한 일본 음식을 찾고 싶다면 우리는 아래와 같은 사칙 연산을 적용해 볼 수 있다. "Tartare" - "America" + "Japan" = ? 잘 훈련된 Word Embedding 모델을 사용하면 위의 결과로 "Sashimi"가 출력된다. 미국의 타르타르와 비슷한 일본 음식은 사시미인 것이다..! Word Embedding 모델은 단어들 사이의 추상적인 관계를 도출하는 도구로 사용될 수 있다. 내부 동작은 3단계로 이루어진다. Step 0. Window Size라고 불리는 목표 단어(.. 예측을 위한 Decision Tree 이 글은 DECISION TREES TUTORIAL을 읽고 작성한 글입니다. 타이타닉과 같은 재앙이 우리를 덮쳤을 때 살아남을 확률은 얼마나 될까? 우리가 만일 어린 아이이거나 여성일 경우 사회적인 통념 상 구원의 손길을 받아 살아남을 확률이 더 높을 것이다. 위급 상황에서는 여성과 아이들의 보호가 우선적으로 중요하기 때문이다. 우리가 살아남을 확률을 알아볼 때 Decision Tree를 사용하는 것이 좋은 선택이 될 수 있다. Decision Tree는 Yes, No와 같이 이분법적으로 대답할 수 있는 질문들로 구성된다. 당신은 남성인가? 여성인가? 당신은 성인인가? 미성년자인가? 와 같이 질문을 하고 그 대답에 따라 전체 데이터 집합을 여러개의 작은 집합들로 나눈다. 그리고 이 질문들을 하면 할수록 .. 시간의 흐름에 따른 분석, 시계열(Time Series) 분석 (feat. Prophet) 이 글은 "TIME SERIES ANALYSIS WITH GENERALIZED ADDITIVE MODELS"를 읽고 작성한 글입니다. 시간의 흐름에 따라 나타나는 현상을 보고자 한다면 시계열(Time Series) 분석을 활용해보면 좋다. 단, 이 기법을 사용하려면 시간에 따라 일정한 경향이 있어야 한다. 어떤 우연한 사건들이 많으면 많을수록 시계열 기법은 그 효과가 감소하기 때문이다. 시계열 기법을 사용할 때 유용한 도구는 FaceBook에서 만든 Prophet이라는 라이브러리이다. 예언자라는 이름답게 이 라이브러리는 기존 데이터의 시계열을 분석해 미래에 어떤 경향이 나타날지 알려준다. 물론 완벽한 예측이란 있을 수 없고 더 먼 미래를 예측할수록 오차 범위도 더 커지지만 아무 정보도 없이 의사결정을 하.. 3차 세계대전이 나면 구도가 어떻게 될까? ※ 이 글은 "WHERE WILL YOUR COUNTRY STAND IN WORLD WAR III?" 을 참고하였습니다. 만일 3차 세계대전이 발발한다면 각 나라들의 경쟁 구도는 어떻게 형성될까? AlgoBeans에서는 2006년 ~ 2015년 기간의 무기 수출입 데이터를 참고하여 주요 나라들의 정치적 역학 관계를 시각화하였다. 데이터는 SIPRI(Stockholm international Peace Research Institute)의 무기 교역 데이터를 활용하였다. 각각의 데이터를 그래프로 표현하고 그래프의 점(Node)은 각 국가, 점들의 연결 선(Edge)은 무기 교역 금액을 나타낸다. 선이 굵을수록 더 높은 가격의 무기 교역이 오갔으므로 더 가까운 관계로 본다. Gephi를 사용한 이 그래프는 .. Unsupervised Networks로 데이터 카테고리 나누기 (feat. SOM) 이 글은 SELF-ORGANIZING MAPS TUTORIAL을 읽고 작성한 글입니다. 대량의 데이터들 속에서 이 데이터들이 어떤 특정한 경향이 있음을 알아보려면 어떻게 해야 할까? 군대에서 병사들이 헤쳐모이듯이 데이터들이 알아서 헤쳐모이도록 하려면 어떻게 해야 할까? 이 물음이 있다면 Self-organizing map(SOM) 기법을 사용해보는게 좋다. SOM은 unsupervised newural networks의 한 유형이고 사용자로 하여금 대량의 데이터셋에서 범주(Category)를 발견할 수 있도록 도와주는 기술이다. SOM은 grid의 형태로 뉴런을 표시한다. 격자무늬의 한칸 한칸이 뉴런인데 이 격자무늬가 반드시 사각형이진 않다. SOM은 반복작업(Iteration)을 통해 뉴런들이 어떠한 .. 개선됨을 증명하고자 한다면 AB 테스트를 써보자 이 글은 LAYMAN'S GUIDE TO A/B TESTING을 참고하여 작성되었습니다. 어떤 기술이나 방식이 기존보다 더 효율적이라는 사실을 어떻게 증명할 수 있을까? 비만을 줄이는 연구에 열중하고 있는 연구자가 있다면 다음해 투자를 받기 위해 자신의 연구가 가치가 있음을 입증해야 할 것이다. 이 경우 좋은 도구로서 A/B Testing이 있다. A/B Testing은 두 개의 집단군을 나누어 한 그룹은 실험하고자 하는 행위를 하고(실험 그룹, experimental) 다른 한 그룹(통제 그룹, control)은 아무것도 하지 않는다. 이후 이 두 그룹간의 차이를 보고 실험 그룹이 기존 그룹에 대비하여 어떻게 변화하였는지 측정한다. #0. A/B Testing의 전체 과정 A/B Testing의 전체 .. CNN(Convolutional Neural Networks) 이 글은 CONVOLUTIONAL NEURAL NETWORKS(CNN) INTRODUCTION을 읽고 요약한 글입니다. 이전에 ANN(Artifical Neural Networks)에 관한 글을 읽었는데, CNN은 ANN의 한계를 극복하기 위해 만들어졌다. 그 한계가 무엇인고 하니 ANN은 모든 뉴런들이 서로 연결되어 있는 구조여서 학습할 데이터가 크면 클수록 복잡성이 급격하게 증가하는 것이었다. 복잡성이 증가하면 그만큼 학습(Training)에 소요되는 시간도 길어졌고 컴퓨터 성능을 최대한 끌어올려 학습하는 경우 이 학습 시간이 연구를 하기엔 너무 오래 걸리는 것이었다. 이에 대한 대안으로 나온 모델이 Convolutional Neural Netowrks, CNN이다. CNN은 모든 뉴런이 연결되어 있.. 이전 1 2 다음