10.24(월) ~ 11.3(목)

 

부캠 6, 7주차 기간 동안 부스트캠프 첫 대회가 끝이났다.

사실상 2주간 열심히 했다고는 하지만 아쉬운 성적으로 마무리를 하였다.

열심히 한다고는 했지만 그 동안 관리하지 못했던 블로그에 정리하고자 한다.

 

사실상 ai 첫 대회를 실시하면서 팀원들과 협업과 분업에대해서 많은 고민과 실험을 하였다.

그 과정에서 분업과 협업을 왁벽히 구분할 수 는 없지만, 대회라는 틀 안에서는 정해진 기간안에서 성과를 목표로 함에 있어서 분업과 협업의 균형을 이루는 법을 어느 정도 알게 된 것 같다. 

모든 것을 함께 진행 할 수는 없지만 팀원들이 무슨 실험을 하고 있는지 '공유'하는 것이 협업과 분업을 나누는 중요한 요소라는 점을 알게되었다.

Keep 

  • 팀원들과 실험과 아이디어 등 적극적으로 공유하며 함께 성장하기
  • 다양한 모델들을 탐색하고 각각의 모델들이 실험하는 데이터에 어떠한 성능을 내는지 확인하기
  • 데이터와 테스트 데이터를 고민하며 vaildation에대한 고민과 cold start 문제를 어떻게 해결할지 고민하는 태도
  • Github을 사용하여 협업하기
  • wandb 를 사용하여 data logging , wandb sweep을 사용하여 hyperparameter 튜닝을 진행한 점. 

Problem

  • 부캠에서 많은 내용을 교육받으며 모델들을 배우고 알게되면서 모델에 집중하게 된 점
    • 모델이 중요하다고 생각하여 multi modal model 인 Tab net 구조의 모델을 실험하였지만 프로그래밍 기술의 부족으로 이번 대회에서 실험하지 못하였다. 결국 시간은 시간대로 소비하였지만, 결과를 확인할 수 조차 없는 최악의 경우였다.
  • EDA(Exploratory Data Analysis, 탐색적 데이터 분석)을 소홀히 한 점
    • 모델을 돌려서 나오는 결과에만 집중하면서 기존 데이터에 있던 결측치를 채우는 것으로 EDA를 그쳤던 것 같다.
    • data feature들의 상관관계와 중요성을 확인하는 과정이 부족했다.
  • 위의 EDA가 부족하다보니 실험할 모델들을 선정함에 있어서도 머리 속에 물음표를 가진채로 실험을 한 점이다.
    • 베이스라인에 제공된 모델을 제외하고 추가 모델을 실험함에 있어서 왜 해당 모델을 추가해서 실험해야 되는지에대한 분석이나 생각보다는 후에 앙상블에 사용할 재료를 모은다는 안일함 생각으로 이것저것 시도한 점이 아쉬움으로 남는다.
  • 시작한 작업을 어떠한 형식으로든 끝을 냈어야 하는데 나의 고질적인 마무리를 잘 하지 못하는 것이 아쉬웠다.
    • wandb를 사용해서 logging 하는 작업과  sweep을 써서 모델 고도화를 하는 작업에서 사용하기위한 정도로 학습을 하였지만, 바로 사용할 수 있도록 어느정도 실험을 마무리하는 것을 다음 대회에는 고쳐야할 나의 습관이다.
    • 각각의 실험들에대해서 마감시간을 정해두고 하지않다보니깐 조금만 더, 조금만 더 하면 될 것 같은데 라는 희망고문 속에서 시간이 너무나 허비되었다. 실험을 실패하였으면 실패한대로 팀원들에게 공유하면서 새로운 해결방법을 모색하거나 실험을 마무리하는 것도 좋은 방법이 될 것 같다.

Try

  • Github을 적극적으로 활용하여 master와 각각의 실험들을 brunch로 만들어 실험 완료 후 merge 혹은 삭제하는 방법으로 개선하기
  • 하루하루 최선을 다하는 것이 중요하다. 하지만 하루 밤을 새는 것 보다 매일매일 꾸준히 작업을 초반부터 제발 꾸준히 하자. 기간이 마지막이 다가와서야 열심히하는 습관을 고치자.
  • 추천 대회를 마치며 솔루션을 들으며 하고 싶은 것들이 많이 생겼다. 이는 다음 대회에 시도해 보고자 한다.
    • EDA, 데이터 전처리를 버전관리를 하여 모델의 성능을 체크하는 것을 시도해보고자 한다. 이번대회에는 버전관리에대한 생각을 잘 하지 못하여 각각의 데이터를 버전별로 실험하지 못한 점이 아쉽다.
    • 카테고리 데이터에 강한 Cat boost, XGBoost, GBM을 활용하여 앙상블한 모델들이 좋은 성능을 나타내었다. 특히 Cat boost와 FM,FFM 계열을 앙상블한 모델이 SoTA에 가까운 성능을 나타내었는데 이 방법론에 대해서 다음대회에 적용해보고자 한다.\

 

+ Recent posts