[부스트캠프] 부스트캠프 첫 대회 회고

Seong Jae 2022. 11. 9. 00:40

2022. 11. 9. 00:40

10.24(월) ~ 11.3(목)

부캠 6, 7주차 기간 동안 부스트캠프 첫 대회가 끝이났다.

사실상 2주간 열심히 했다고는 하지만 아쉬운 성적으로 마무리를 하였다.

열심히 한다고는 했지만 그 동안 관리하지 못했던 블로그에 정리하고자 한다.

사실상 ai 첫 대회를 실시하면서 팀원들과 협업과 분업에대해서 많은 고민과 실험을 하였다.

그 과정에서 분업과 협업을 왁벽히 구분할 수 는 없지만, 대회라는 틀 안에서는 정해진 기간안에서 성과를 목표로 함에 있어서 분업과 협업의 균형을 이루는 법을 어느 정도 알게 된 것 같다.

모든 것을 함께 진행 할 수는 없지만 팀원들이 무슨 실험을 하고 있는지 '공유'하는 것이 협업과 분업을 나누는 중요한 요소라는 점을 알게되었다.

Keep

팀원들과 실험과 아이디어 등 적극적으로 공유하며 함께 성장하기
다양한 모델들을 탐색하고 각각의 모델들이 실험하는 데이터에 어떠한 성능을 내는지 확인하기
데이터와 테스트 데이터를 고민하며 vaildation에대한 고민과 cold start 문제를 어떻게 해결할지 고민하는 태도
Github을 사용하여 협업하기
wandb 를 사용하여 data logging , wandb sweep을 사용하여 hyperparameter 튜닝을 진행한 점.

Problem

부캠에서 많은 내용을 교육받으며 모델들을 배우고 알게되면서 모델에 집중하게 된 점
- 모델이 중요하다고 생각하여 multi modal model 인 Tab net 구조의 모델을 실험하였지만 프로그래밍 기술의 부족으로 이번 대회에서 실험하지 못하였다. 결국 시간은 시간대로 소비하였지만, 결과를 확인할 수 조차 없는 최악의 경우였다.
EDA(Exploratory Data Analysis, 탐색적 데이터 분석)을 소홀히 한 점
- 모델을 돌려서 나오는 결과에만 집중하면서 기존 데이터에 있던 결측치를 채우는 것으로 EDA를 그쳤던 것 같다.
- data feature들의 상관관계와 중요성을 확인하는 과정이 부족했다.
위의 EDA가 부족하다보니 실험할 모델들을 선정함에 있어서도 머리 속에 물음표를 가진채로 실험을 한 점이다.
- 베이스라인에 제공된 모델을 제외하고 추가 모델을 실험함에 있어서 왜 해당 모델을 추가해서 실험해야 되는지에대한 분석이나 생각보다는 후에 앙상블에 사용할 재료를 모은다는 안일함 생각으로 이것저것 시도한 점이 아쉬움으로 남는다.
시작한 작업을 어떠한 형식으로든 끝을 냈어야 하는데 나의 고질적인 마무리를 잘 하지 못하는 것이 아쉬웠다.
- wandb를 사용해서 logging 하는 작업과 sweep을 써서 모델 고도화를 하는 작업에서 사용하기위한 정도로 학습을 하였지만, 바로 사용할 수 있도록 어느정도 실험을 마무리하는 것을 다음 대회에는 고쳐야할 나의 습관이다.
- 각각의 실험들에대해서 마감시간을 정해두고 하지않다보니깐 조금만 더, 조금만 더 하면 될 것 같은데 라는 희망고문 속에서 시간이 너무나 허비되었다. 실험을 실패하였으면 실패한대로 팀원들에게 공유하면서 새로운 해결방법을 모색하거나 실험을 마무리하는 것도 좋은 방법이 될 것 같다.

Try

Github을 적극적으로 활용하여 master와 각각의 실험들을 brunch로 만들어 실험 완료 후 merge 혹은 삭제하는 방법으로 개선하기
하루하루 최선을 다하는 것이 중요하다. 하지만 하루 밤을 새는 것 보다 매일매일 꾸준히 작업을 초반부터 제발 꾸준히 하자. 기간이 마지막이 다가와서야 열심히하는 습관을 고치자.
추천 대회를 마치며 솔루션을 들으며 하고 싶은 것들이 많이 생겼다. 이는 다음 대회에 시도해 보고자 한다.
- EDA, 데이터 전처리를 버전관리를 하여 모델의 성능을 체크하는 것을 시도해보고자 한다. 이번대회에는 버전관리에대한 생각을 잘 하지 못하여 각각의 데이터를 버전별로 실험하지 못한 점이 아쉽다.
- 카테고리 데이터에 강한 Cat boost, XGBoost, GBM을 활용하여 앙상블한 모델들이 좋은 성능을 나타내었다. 특히 Cat boost와 FM,FFM 계열을 앙상블한 모델이 SoTA에 가까운 성능을 나타내었는데 이 방법론에 대해서 다음대회에 적용해보고자 한다.\

'부스트캠프 4기 RecSys' 카테고리의 다른 글

[부스트캠프] 8주차 회고 (0)	2022.11.11
[window 10 Home] docker 설치 에러 Hardware assisted virtualization and data execution protection must be enabled in the BIOS. (0)	2022.11.10
[부스트캠프] window에서 AI STAGE 서버 SSH 연결하기 (0)	2022.10.24
[부스트캠프] 5주차 회고 (0)	2022.10.21
[부스트캠프] Github 특강 3회차 (0)	2022.10.21

개발로그

[부스트캠프] 부스트캠프 첫 대회 회고

Keep

Problem

Try

'부스트캠프 4기 RecSys' 카테고리의 다른 글

+ Recent posts

티스토리툴바