반응형
미니프로젝트 4차
이번 미니프로젝트의 목표는 1:1 문의 내용 유형 분류기 만들기었다.
1:1 질문 게시판에 업로드되는 질문들의 유형을 분류하고, 질문의 유형별로 자동으로 분류하는 모델을 만들기를 진행하였다.
konlpy, Mecab을 활용하여 품사를 태깅하고, 명사를 추출하였습니다.
그리고 명사 추출, 품사 태깅한 데이터를 nltk Text로 변경하여 각 toekn의 갯수, 전체 token의 비율을 보았습니다.
그 결과 명사 개수 : 57025이고, 명사 : '것', '수', '값', '데이터', '문제' 순으로 많이 사용되었다는 것을 확인 할 수 있었다.
그리고 품사 개수 : 297496이고 품사 : ',' , '-' , '.', ')' 순으로 많이 사용되었다는 것을 확인할 수 있ㅇㅆ다.
최대 문의 길이는 2016이고, 최소 문의 길이는 9이다.
word cloud 결과 '것', '수', '문제', '데이터'. '코드' 순으로 많이 사용되었다는 것을 확인할 수 있었다.
데이터 전처리
특수 문자(‘’◇‘”’'·\“·△●■()\">>`/-∼=ㆍ<>.?!【】…◆%)를 제거하였다.
특수 문자 제거 결과
이렇게 변하였음을 확인 할 수 있었다.
머신러닝 모델 학습
다항 나이브 베이즈 분류 모델을 사용하였다.
반응형
'Review > KT Aivle School' 카테고리의 다른 글
[4기 에이쁠 기자단] 가상화 클라우드 (1) | 2023.11.28 |
---|---|
[4기 에이쁠 기자단] AIVLE Day (1) | 2023.11.28 |
[4기 에이쁠 기자단] 시각지능 딥러닝(2) (0) | 2023.09.26 |
[4기 에이쁠 기자단] 시각지능 딥러닝(1) (1) | 2023.09.26 |
[4기 에이쁠 기자단] 미니프로젝트 2차 (0) | 2023.09.25 |