DKT 대회 데이터 EDA

  • userID 사용자의 고유번호입니다. 총 7,442명의 고유 사용자가 있으며, train/test셋은 이 userID를 기준으로 90/10의 비율로 나누어졌습니다.
  • assessmentItemID 문항의 고유번호입니다. 총 9,454개의 고유 문항이 있습니다. 이 일련 번호에 대한 규칙은 DKT 2강 EDA에서 다루었으니 강의 들어보시면 좋을 것 같습니다.
  • testId 시험지의 고유번호입니다. 문항과 시험지의 관계는 아래 그림을 참고하여 이해하시면 됩니다. 총 1,537개의 고유한 시험지가 있습니다.
  • answerCode 사용자가 해당 문항을 맞췄는지 여부에 대한 이진 데이터이며 0은 사용자가 해당 문항을 틀린 것, 1은 사용자가 해당 문항을 맞춘 것입니다.
  • Timestamp 사용자가 해당문항을 풀기 시작한 시점의 데이터입니다.
  • KnowledgeTag 문항 당 하나씩 배정되는 태그로, 일종의 중분류 역할을 합니다. 태그 자체의 정보는 비식별화 되어있지만, 문항을 군집화하는데 사용할 수 있습니다. 912개의 고유 태그가 존재합니다.

+) eda 하고자하는 시도

  • 문제 번호가 의미를 가지고 있는지
    • why? 수능에서는 문제 번호가 어느 정도 정답률과 연관이 되어있기 때문에 이 데이터도 그러한지 확인해보고자한다.
  • 문제별 푼 시간을 data로 만들었을 때
    • 카테고리 변수로 바꾸어서
    • numeric으로 사용

DKT 강의 1 ~ 2강 학습

AUC , Accuracy = 평가지표

위의 지표들의 단점은 결국 confusion matrix를 만들어야한다.

이는 0~1 사이의 값을 0과1로 만들어주기 위해서는 tresh hold가 필요하다.

 

AUC는 Imbalanced data 에서 비교적 높게 측정되는 경향이 있다.

imbalance data 여도 test data를 동일하게 유지한다는 가정하에 binary classification 모델의 상대적인 성능 비교 가능

 

알고리즘 문제 풀이

프로그래머스 lv2 이진 변환 

from collections import Counter
def solution(s):
    answer = []
    i = 0
    j = 0
    while s != "1":
        i +=1
        c = Counter(s)
        j += c["0"]
        s = s.replace("0","")
        s = bin(len(s))[2:]
      
    return [i,j]

Counter 와 replace 함수를 사용해서 생각보다 쉽게 풀었다.

하지만 2진화 시키는 내장함수가 없었다면 2진화 함수부터 만들었어야 했기때문에 시간이 배로 걸렸을 것 같다.

 

+) 추가로 한 일

aistage 서버 세팅 (VS code 원격 ssh 세팅)

RECCAR 팀 그라운드 룰, 노션 페이지 등 설정

 

오늘의 회고

오늘부터 부스트캠프 레벨2가 시작되면서 새로운 팀원들과 새로운 멘토님과 새출발을 하게되었다.

이하경 멘토님과도 멘토링을 진행했다. 이 과정에 멘토님이 META에서 근무를 하시며 지난주에 실리콘밸리에서 불었던 해고의 칼바람에 대한 소식도 들을 수 있었다. 슈카월드에서나 듣던 실리콘 밸리의 삶을 멘토님을 통해서 들으니 너무 신선했다.  +) 멘토님의 영어발음을 들을 때 마다 매번 감탄을 하게되었다. 

오늘 피어세션에서는 우리가 함께 성장하기위해 필요한 우리들만의 프로세스를 가다듬었다.

각자 팀원마다 LV1에서 했던 각 팀의 그라운드 룰, 학습정리, GIT 등의 방법을 공유하면서 어떻게하면 최대의 효율을 낼 수 있을지에대한 고민을 했다. 이 과정이 무의미하게 들릴 수는 있지만 협업을 위해서는 꼭 필요한 과정이라고 생각한다.

부스트캠프의 과정에 참여하면서 매번 느끼지만 이렇게까지 좋은 사람들을 만나게되는 경우가 있을까 싶을 정도로 내게 너무나 값진 시간이 되었다. 그들 사이에서 항상 좋은 피드백을 받고있는 입장으로서 나도 다른 캠퍼분들에게 긍정적인 피드백을 줄 수 있는 사람이 되고자 열심히 해야겠다.

+ Recent posts