DKT 

DKT 대회에서 부스팅 모델계열을 실험하고있다.

현재까지는 Cat, XG, LGBM 모델을 돌려보았고 

각각의 모델에 맞게 feature를 선택하기 쉽게 만들기위한 Feature Selection기능을 개발하고 있다.

 

그 외에 FE 과정을 통해서 팀원 한명과 계속해서 FE total 데이터에 계속해서 추가하고 있다.

 

구조는 대략 위와같은 파일 구조로 진행이 되어있고 

아마 향후에 wandb, optuna를 사용해서 feature 선택 부분과  하이퍼 파라미터 튜닝을 실행하기 쉽게 하기 위한 과정도 준비해야 할 것 같다.

 

+) 추가로 이번주 금요일까지 인수인계를 하기 위한 기능과 Readme를 작성해두어야겠다. 이번 기회에 실험 정리하는 것을 연습 겸 실습할 수 있을 것 같다.

 

AI Ground

요즘들어 제일 열심히 참여하는 것 중 하나가 ai ground가 아닐까 싶다.

하지만 기본 베이스라인 모델을 아직까지는 이기고 있지 못하고 있다...

Rule Baesed 방법으로 시도를 해보았지만 graph기반 모델의 아웃풋이 생각보다 견고하다.

생각보다 graph 기반 모델이 나보다 많이 똑똑한것 같다... 허허허

기존에는 부스팅 계열 모델을 사용해서 접근해 보려고 했지만해당 대회의 target 이 앨범 id가 3만개 이상이라 쉽지 않을 것 같았다.만약 진행하고자 하면 negative sampling에서 어떻게 진행해야 최적의 결과를 얻을 수 있을지 감이 잘 오지 않았다.

그래서 베이스라인과 유사한 graph 기반 모델이며 kaggle에서 벤치마크 성능도 준수한 UltraGCN 모델을 한번 적용해보고자한다. 아래는 book recommandation에서 SOTA인데 이번 대회와 마찬가지로 recall@k, NDCG@k 방식으로 채점하고 있다.(https://paperswithcode.com/sota/recommendation-systems-on-amazon-book)

오늘의 회고

어제는 경황이 없어서 블로그에 정리를 하지 못했다.

요즘 시간이 엄청 빠르게 흘러가고 있다. 하고 싶은 실험도 많고 데이터 관련해서 어떻게 하면 성능을 높일 수 있을지 고민을 많이 하게된다. 그런 시도를 하면서 종종 만나는 사소한 오류들로 시간이 불타 사라지는 것을 경험하면서 경황이 없는 것 같다. 

아무래도 매번 새로운 시도를 하다보니깐 새로운 오류들을 만나는 것 같다. 앞으로도 계속해서 오류들을 만날 예정이지만 점차 pytorch 경험이 쌓이면서 처음보다는 성장한다는 것을 느끼며 계속해서 성장하고자 한다.

 

+) 그래도 알고리즘 문제 풀이와 git 프로젝트 관리를 하면서 요즘 잔디 관리가 잘 되고 있어서 소소한 만족감을 느끼고 있다.

+) 아래는 이력서관련 포스티을 추천받았는데 나중에 참고하고자 남겨둔다.

https://wonny.space/writing/work/engineer-resume

+ Recent posts