Kakao-arena 대회 참가 후기

2019. 1. 29. 11:50Personal

최근이라고 하기에는 조금 기간이 지났을지도 모르겠지만, 지난달까지 Kakao Arena(https://arena.kakao.com/)에서 주최하는 쇼핑몰 카테고리 분류 대회를 참가했었다.

(카카오 아레나 - 쇼핑몰 상품 카테고리 분류 대회)


일단 참가했던 팀 이름은 yee라고 결정했었다. 이런 이름인 이유는 딱히 없고 이름 짓기가 귀찮았기 때문에 생각난 것들 중 가장 간단했던 것을 골랐다. 최대 장점은 이름 짓는데 5분도 안걸렸다는 거.


일단 처음 튜토리얼 코드를 보고 NLP문제를 푸는구나 정도의 느낌만 받았었다. Fasttext? 이게 뭐지? 라는 느낌. 말 그대로 NLP에 대해 아무것도 모르고 있던 상황. 일단 튜토리얼 코드를 보고 '뭐 대충 이정도로 만들면 되겠지?' 라는 느낌으로 막무가내 코드를 작성해서 제출 한 결과는... 처참했다.


(이게 바로 '뭐 일단 모델만들면 성능 나오겠지?' 의 결과이다!)


충격적인 결과를 뒤로하고, 일단 왜 성능이 안나왔는지 모르니, 기존 베이스라인 코드를 조금씩 개선해 나가는 방향으로 작업 방식을 바꿔나갔다. 이렇게 접근했던 이유는, 첫째, NLP를 어떻게 하는지 하나도 모르고, 둘째, 데이터가 어떤식으로 구성되어있는지 하나도 모르고, 셋째, 어떤 데이터를 더 사용할 수 있는지에 대해 아무것도 몰랐기 때문이다.


일단 베이스라인을 조금씩 고치는 시도는 생각보다 효과적이지 않았다. 단순히 베이스라인 Score를 재현하는것도 일단 환경이 다르기 때문인지 잘 되지 않았고, 또 이 점수를 넘기란 힘들어보였다.


(그냥 튜토리얼 코드를 돌렸는데 내꺼보다 훨씬 낫다...)


일단 이런 시도들을 해봤으니, 모델을 이해하고 내가 생각했던 구조대로 짜고싶다는 욕심이 생겼다. 일단 뭔지는 모르지만 cate라는 데이터만을 사용해서 최대의 성능을 내고 싶었다. 그렇게 무한한 삽질...


(무수한 삽질의 흔적들)


하지만 이런 결과에도 한계가 있었던 모양이다. 0.92를 넘어서는 결과는 내기가 힘들었고, 어떤 모델을 만들어도 이 이상 더 좋게 만들기는 어렵겠다는 결론이 나오기 시작했다. 따라서, 이제 제공된 데이터 중 튜토리얼에서 보지 못한 다른 데이터들을 사용해야겠다는 필요성을 느끼기 시작했다.


(아직 내가 사용한 데이터는 저 중 일부밖에 되지 않는다!)


그렇게 다른 데이터를 어떻게 사용할까 삽질을 했지만 결국 시간부족과 게으름으로 인해 12월중 중도 포기를 하게 된다. 아직 Dev제출밖에 안했었지만, 그래도 시간의 부족이라는 핑계로 이 일을 하기에는 무의미 하다는 자기만족을 할 수 밖에 없었다.


일단 대회 참가를 하면서 부족하다고 느낀 점은 다음과 같다.

  1. 데이터에 대한 이해가 부족

  2. 데이터가 주어져도 어떻게 써먹어야 좋을지에 대한 이해가 부족

  3. 애초에 NLP라는 주제에 대한 이해 부족

  4. 무조건 DL을 적용한다고 해서 좋은 결과가 나오는 것은 아니라는 점을 인지 못함

정도로 보인다. 비록 시작은 창대하게 했으나 끝은 미미하게 되었지만, 다음에는 좀 더 나은 예측을 해보고 싶은 욕심이 생긴다.

'Personal' 카테고리의 다른 글

스타트업에서 '딥러닝' 개발자로 일한다는 것  (0) 2020.08.30
2019년을 돌아보며  (0) 2019.12.30