카테고리 없음

차이나는 클라스, 아주대 박형주 교수의 알고보면 완전 소중한 수학-빅데이터 시대의 강력한 도구 수학.

속좁은펭귄 2022. 12. 16. 16:07
반응형

빅데이터! 2017년 미국 IBM 발표에 따르면 전 세계는 하루 2.5조 바이트의 데이터를 쏟아내고 있다고 하죠. 바야흐로 숨만 쉬어도 정보가 쌓이는 세상, 데이터의 홍수 속을 살아가는 우리, 경험과 상식만으로 진실을 구별하기 어려운 현실이잖아요. 수많은 정보 속에서 올바른 판단을 위해 필요한 것이 수학입니다.

이 시대를 읽는 강력한 도구가 수학이라고 해요. 

 

 

대학생활 최대목표는 취업이잖아요.

 

 

정말 취업에는 학점이 제일 중요할까? 어떤 요소가 취업에 큰 영향을 미칠까? 취업의 주된 요소를 빅데이터로 분석합니다. 취업의 성공과 실패에 대해서 아주대 학생들의 대학 활동을 수집한 후, 그랬더니 우리의 상식과 다른 결과가 나왔다고 해요. 학점이 취업 성공 비결의 1순위는 아니에요. 

데이터 분석 내용을 기반으로 학점뿐만 아니라 비교과 활동의 중요성도 강조, 기업에서도 기업에 맞는 인재상을 분석해서 공개한다면 구직자와 기업 모두 윈윈이겠죠. 현실속 데이터 분석이 강력한 힘을 발휘하는 분야는 바로 야구라 고해요. 

 

 

머니볼은 망해가는 만년 꼴찌 야구팀, 오클랜드 어슬레틱스 팀의 성공 신화를 다룬 영화라고해요. 단장 빌리 빈(브래드 피트)은 경제학 박사를 부단장으로 스카우트한 뒤 새로운 전략을 도입합니다. 2002년 미국 프로야구 140년 역사상 처음으로 20연승을 달성하게 되죠. 영화 머니볼과 수학의 연관성.

꼴찌팀 오클랜드 어슬레틱스의 성공비결은 세이버메트릭스라고 해요. 세이버메트릭스는 야구의 모든 기록을 수학적, 통계적 방법으로 분석하는 방법론입니다. 

 

 

1977년 야구광이던 빌 제임스는 시즌 경기마다 선수들의 움직임을 기록, 이를 기반으로 야구 선수들의 실력을 객관적으로 분석, 이후 누적된 기록을 통해 신뢰할 수 있는 평가도구로 부상했다고 해요.  그리고 연봉 협상의 중요한 근거로 자리 잡은 세이버메트릭스. 

 

 

빌리 빈 단장은 생각을 바꾼거에요. 출전한 야구 선수의 모든 움직임을 기록하고 장타율, 출루율, 홈런 등등의 요소중 승리의 영향을 주는 요소를 분석합니다. 그중 두 개를 끄집어냅니다.  OPS 출루율과 장타율.

출루율은 타자가 타석에서 베이스로 얼마나 많이 살아나갔는지를 백분율로 나타내는 수치입니다. 장타율은 단타, 안타, 홈런 각각을 점수 매긴뒤 합한 수를 타수로 나눈 값이에요. 타수당 몇 루를 진루할 수 있는지 보여주는 기대수치입니다. 

 

 

OPS는 출루율과 장타율을 합친거에요. 예전엔 이게 간과됐었었죠. 단순히 홈런 개수, 타점만 이용했죠. 

90년대에 1루 진출했지만 득점이 안되면 2루타 이상 치는 장타역시 홈베이스를 못 밟으면 무의미했는데 빌리 빈의 경우 팀의 위기로 예 산마저 삭감된 상태, 출루율과 장타율을 보고 세 선수를 영입해 20연승의 주역으로 성장했죠. 

 

 

빌리 빈은 데이터 야구 붐을 일으키게 되죠. 

선수들의 실력 보완을 위해서도 세이버메트릭스는 중요한 표본인 거죠. 오히려 과학적인 분석을 통해 필요한 훈련을 하는 거죠. 결국 승기를 거머쥐기 위한 전략 싸움에서 데이터 분석이 중요한 이유죠. 

 

 

데이터로 승부를 예상한 귀재가 있습니다. 

 

 

2003년 메이저리그 선수의 성적을 예측하는 모델로 페코타 프로젝션으로 시즌 시작 전 선수의 성적과 우승팀을 예측합니다. 빅데이터인 세이버메트릭스를 기반으로 다음 경기 성적을 예측합니다. 

 

 

세이버메트릭스 방식으로 다른 분야에서 큰 성공을 한거죠.  짧은 기간 포커로 1만 5천 달러를 딴, 포커판에서 통계분석의 가능성을 확인하게 됩니다. 

이후 2008년 민주당 대선 후보 경합에서 오바마를 지지했던 네이트 실버, 힐러리의 지지율이 더 높다는 보도를 보고 

수십년의 선거 데이터를 모아서 선거 예측 프로그램을 개발합니다. 결국 2008년 민주당 대선후보로 오바마가 결정, 데이터 저널리즘의 시대를 연 네이트 실버. 

 

 

우리와 달리 미국은 간접선거로 대통령을 선출하죠. 각 주별로 선출한 선거인단이 대표로 선거를 합니다. 그 사람들의 수가 총 538명이에요. 2008년 미국 대선에서 네이트 실버의 첫 선거 예측은?! 

 

 

유일하게 예측이 실패한 곳이 인디애나주인데 그 이유가 

 후보간의 격차가 소수점 이하로 근소한 수준,  2008년 미국 상원의원 선거에서 완벽하게 35개 주 전부 예측에 성공합니다.

2012년 미국 대선 적중률 100% 매체별 여론조사 결과 초박빙이었던 2012년 미국 대선. 

한 주의 실수도 없이 50개주의 결과를 정확하게 예측한 네이트 실버, 선거분석 방식은? 1952년 이후 모든 대선 결과를 데이터베이스로 구축, 여론조사 역시 반영해 정확도가 높을수록 가중치를 부여했다고 해요. 

여론조사 신뢰성에 대한 두렷한 관점이 없었을 것 이분은 빅데이터에 의해서 신뢰도까지도 분석했거든요. 자체 여론조사만 할때 각 여론조사의 정확도를 분석하고 연이은 예측 성공으로 예측의 신으로 등극한 네이트 실버. 그런데 원숭이도 나무에서 떨어질 때가 있죠. 바로 힐러리와 트럼프 2016년 미국 대선입니다. 

 

 

충격적인 결과, 트럼프가 당선되죠. 2016년 대선 결과 예측이 실패한 이유는? 

 

 

비교적 적극적으로 본인의 생각을 어필하는 미국 문화, 그런데 샤이 트럼프라고해서 자신의 생각을 드러내지 않은 일명 숨은 트럼프 지지자들이 유독 많았던 2016년 미국 대선. 

선거철이면 다양한 기관에서 선거 예측을 시도하는데2016년 유일하게 트럼프의 우승을 점친 곳이 구* 트렌드라고 해요.

대놓고 드러내진 않지만 혼자 지지하는 인물을 검색하죠.  완벽한 익명성을 보장하죠. 박빙의 선거에서 주효한 예측 지표가 된 거죠. 

확인되지 않은 데이터를 그대로 받아들이는 것은 미신을 믿는 것입니다. 바야흐로 빅데이터 시대입니다. 데이터 검증은 누구에게나 필요합니다. 보다 진실에 가까운 확률이 있을 뿐, 예측에 정답은 없습니다. 

 

<출처: jtbc 차이 나는 클라스>

 

 

반응형
댓글수0