기업 데이터와 분석가를 연결하는 데이터 경진대회 플랫폼
양질의 데이터로 인사이트 도출 가능

[월드투데이 김새민 기자] 데이터 관련 진로를 꿈꾸는 이들에게 '데이터 분석 경진대회 플랫폼'은 실전 경험을 위한 발판이다.

데이터를 공부하는 사람이라면 데이터 분석 경진대회에 주목해야 한다. 데이터를 이용한 프로젝트 경험은 기업에서도 중시하는 역량으로 알려져 있다. 데이터 관련 직무 지원 시 프로젝트를 정리한 포트폴리오 제출은 필수나 다름없다.

발전하는 머신러닝과 딥러닝 기술에 발맞춰 데이터 사이언스에 뛰어드는 사람도 늘어나는 추세이다. 데이터에 관한 관심은 늘어나지만, 데이터를 공부하는 입장에서 실제 데이터를 다룰 수 있는 기회는 흔치 않다. 단순 이론과 코드 작성법을 배워도 스킬을 활용할 곳은 없는 것이다. 

데이터 분석 경진대회에 참가하면 실제 데이터를 다루는 실전 경험을 쌓을 수 있다. 대회 수상으로 데이터 스킬의 공신력을 입증받을 수 있기도 하다. 데이터 분석 경진대회 플랫폼은 지속적으로 경진대회를 유치하는 것을 목적으로 한다. 플랫폼에서는 여러 경진대회를 한눈에 볼 수 있으며, 다양한 데이터로  머신러닝 및 딥러닝을 공부할 수 있다.

플랫폼에서는 참가자들 간 소통 공간도 따로 마련한다. 참가자들은 정보를 공유하고 토론하며 함께 플랫폼을 만들어 나간다.

Kaggle

[사진 = kaggle 페이스북]
[사진 = kaggle 페이스북]

해외 플랫폼 중 하나인 Kaggle은 2010년 설립되어 예측모델 및 분석 대회 플랫폼으로 출발했다. 2017년 3월 구글에 인수되어 현재 50,000개가 넘는 데이터를 보유 중이다.

Kaggle은 문제 의뢰 기업과 문제를 해결하는 데이터 분석가들을 연결한다. 세계 각 기업은 Kaggle에 문제와 데이터를 제공하고, 참가자들은 해당 데이터를 바탕으로 대회에서 제시한 문제를 해결한다. 

데이터 제공 기업이 일종의 정답 데이터를 Kaggle에 제공하면 Kaggle 측에서 자동으로 평가해 실시간 순위를 제공한다. 대회에 따라서 다양한 상금도 주어진다.

데이터 분석 경진대회에서는 머신러닝/딥러닝 기술을 데이터에 직접 적용할 수 있다. Kaggle에 공개된 데이터 중 관심 있는 주제의 데이터를 찾아서 다운로드하면 된다. 플랫폼에서는 데이터 분석의 기초를 다질 수 있는 입문자용 데이터로 Titanic: Machine Learning from Disaster, House Prices - Advanced Regression Techniques 데이터를 추천한다.

검색창을 활용하면, 사람들이 이론을 실제 데이터에 어떻게 적용하는지 확인할 수 있다. 궁금한 머신러닝 모델이 있다면 Kaggle에 모델 이름을 검색해보면 된다. 

DACON(데이콘)

[사진 = 데이콘 유튜브 ]
[사진 = 데이콘 유튜브 ]

Kaggle과 유사한 국내 사례로 '데이콘'을 꼽을 수 있다. 데이콘도 데이터 분석 경진대회 플랫폼으로 국내 공공기관이나 개별 기업들이 문제를 내건다. 

데이콘은 사이트 소개에서 국내에 없던 데이터 경쟁 플랫폼을 구현하여 지속해서 운영하는 것을 목적으로 한다고 밝혔다. 데이터에 관심 있는 많은 사람과 기업이 꾸준하게 몰입하는 공간을 만드는 데 의미를 둔다.

데이콘에서는 경진대회가 수시로 열린다. 대회 수상 시 주최 기업들에서 취업 관련 혜택을 제공하기에 국내 기업 취업 시 유리하다. 오는 10월 12일 신청 마감인 '2021 NH투자증권 빅데이터 경진대회'에서는 수상자에게 서류전형을 면제하는 등의 특전을 제공한다. 

카카오 아레나

[사진 = 카카오 아레나 홈페이지]
[사진 = 카카오 아레나 홈페이지]

국내 기술기업인 카카오에서도 머신러닝을 이용한 문제 해결 대회 플랫폼인 '카카오 아레나'를 운영한다. 카카오 아레나에서도 대회 데이터 및 대회 산출물을 공개한다. 그동안 카카오 아레나는 '쇼핑몰 상품 카테고리 분류', '사용자의 취향에 맞는 브런치 글 예측/추천', '멜론 사용자를 위한 음악 추천'을 주제로 대회를 개최했다.

데이터 인재를 위한 발판

[사진 = kaggle 페이스북]
[사진 = kaggle 페이스북]

대회에 참가하지 않아도 데이터 분석 경진대회 플랫폼은 유용하다. 다른 사람들의 코드를 보면서 공부할 수 있기 때문이다. Kaggle과 데이콘에서는 대회 수상자뿐만 아니라 대회 참가자들의 코드를 공개한다. 여러 코드를 참고해 다양한 문제 해결 방식을 습득할 수 있다. 

또한, 다른 사람들과 코드 및 문제 해결 방식에 대해 의견을 나눌 수도 있다. Kaggle의 'Discussion' 항목과 데이콘의 '토크' 항목은 다른 사람들과 토론할 수 있는 공간이다. 여러 사람의 의견에 나의 목소리를 더해 함께 플랫폼을 만들어나가는 것이다.

이와 같은 데이터 분석 경진대회 플랫폼에서는 데이터로 문제를 해결하는 방법을 모색하고, 코드를 작성하는 실전 경험을 쌓을 수 있다. 경쟁이라는 이름 아래 모두의 성장을 꿈꾸는 데이터 플랫폼을 잘 활용하여 꾸준히 공부한다면 한달음에 데이터 인재로 거듭날 것이다.

[사진 = pixabay]
[사진 = pixabay]

한편, 국내에서는 다양한 데이터 활용 경진대회가 열린다.  지난 15일 1차 심사가 마감된 '빅콘데스트'(한국지능정보사회진흥원 주최)는 수상자를 대상으로 취업 연계 프로그램을 제공한다. 

문화/관광 도메인에 관심을 둔 데이터인들을 위한 '문화관광 빅데이터 분석대회'와 '문화공공데이터 활용 경진대회'도 있다. 자신의 도메인과 데이터 스킬을 융합하여 실력을 발휘하기 좋다.

'행정안전부'와 '한국지능정보사회진흥원'에서는 공공 빅데이터를 활용한 사회문제 해결을 주제로 '공공 빅데이터 분석 공모전'을 개최한다. 해당 대회는 오는 10월 15일 마감 예정이다.

저작권자 © 월드투데이 무단전재 및 재배포 금지