기간: 2024.07.02~2024.07.12(약 2주)
기술 스택: python, pandas, pytorch, sklearn, optuna,..
한 줄 설명: 영문 텍스트에서 MBTI 추측.
개발 인원: 4명
맡은 역할: 모델 개발(데이터 전처리, 모델 선택, 하이퍼파라미터 튜닝), 발표
구현 내용:
부족한 데이터를 SMOTE를 사용해 오버샘플링했습니다. TF_IDF Vectorizer를 사용해 벡터화 후 불용어 처리 및 n-gram을 통한 문맥을 파악 후,
CatboostClassifier와 LGBMClassifier, Blanced Random Forest, LogisticRegression을 소프트 보팅 방식으로 혼합해 학습하고 Optuna를 활용해 하이퍼파라미터 튜닝을 진행했습니다.
평균 정확도는 약 0.85 였으나,
데이터가 상대적으로 적은 항목에서 f1-score가 52~60 정도의 값이 나온 점이 미흡했습니다.