728x90
반응형
쇼핑몰 후기 감성 분석(나이브 베이즈)
1. 데이터 로딩
Y 가공(긍정: 1, 부정:0)
평점에서 이미 3이 제거된 상태로, 전처리가 되어있다.
부정은 0, 긍정은 1로 변환하였다.
2. 학습 데이터 선택
728x90
3. 전처리
1) 불용어 및 조사 사전 생성
2) 추가 불용어 처리
- 빈도수가 1인 단어 목록 불용어 사전 추가
3) 토큰화 + 일반화
4) 문장 결합
CounterVectorizer의 input data는 문장이어야 한다. 그러나 토큰화를 하기 위해서는 위 과정에서처럼 문장을 쪼갤 수 밖에 없었다.
그러므로 아래 CountVectorizer 적용을 하기 위하여 문장으로 변경한다. 즉, CountVectorizer가 요구하는 fitting을 위한 문장으로 변경하는 작업이다.
4. 데이터 분리
5. CountVectorizer 적용
vect1 = CountVectorizer(anlayzer = 'word') 의 vect1는 빈 모델이다. word만 가져오겠다는 의미이다.
CountVectorizer DTM
단어별 순서대로 나열한 매트릭스(값은 각 단어의 포함 횟수를 의미함)
6. TF-IDF 변환
7. 훈련 및 평가
반응형
8. 적용
728x90
반응형
'배우기 > 복습노트[Python과 분석]' 카테고리의 다른 글
[복습] Python | 분석 | 감성분석(전처리 및 RNN) - 쇼핑몰 후기 감성분석 (0) | 2024.04.15 |
---|---|
[복습] Python | 분석 | 감성분석(전처리 및 나이브 베이즈) - 영화 후기 감성분석 - 하루끝(20240403) (0) | 2024.04.14 |
[복습] Python | 분석 | 감성분석(워드 클라우드) (0) | 2024.04.14 |
[복습] Python | 분석 | 감성분석 Intro (0) | 2024.04.13 |
[복습] Python | 분석 | 딥러닝(CNN) 이미지 분석(2) + 하루끝(20240402) (0) | 2024.04.12 |