배우기/복습노트[Python과 분석]
[복습] Python | 분석 | 감성분석(나이브 베이즈) - 쇼핑몰 후기 감성분석
이름이김이름
2024. 4. 14. 18:00
728x90
반응형
쇼핑몰 후기 감성 분석(나이브 베이즈)
1. 데이터 로딩
Y 가공(긍정: 1, 부정:0)
평점에서 이미 3이 제거된 상태로, 전처리가 되어있다.
부정은 0, 긍정은 1로 변환하였다.
2. 학습 데이터 선택
3. 전처리
1) 불용어 및 조사 사전 생성
2) 추가 불용어 처리
- 빈도수가 1인 단어 목록 불용어 사전 추가
3) 토큰화 + 일반화
4) 문장 결합
CounterVectorizer의 input data는 문장이어야 한다. 그러나 토큰화를 하기 위해서는 위 과정에서처럼 문장을 쪼갤 수 밖에 없었다.
그러므로 아래 CountVectorizer 적용을 하기 위하여 문장으로 변경한다. 즉, CountVectorizer가 요구하는 fitting을 위한 문장으로 변경하는 작업이다.
4. 데이터 분리
5. CountVectorizer 적용
vect1 = CountVectorizer(anlayzer = 'word') 의 vect1는 빈 모델이다. word만 가져오겠다는 의미이다.
CountVectorizer DTM
단어별 순서대로 나열한 매트릭스(값은 각 단어의 포함 횟수를 의미함)
6. TF-IDF 변환
7. 훈련 및 평가
반응형
8. 적용
728x90
반응형