본문 바로가기

배우기/복습노트[Python과 분석]

[복습] Python | 분석 | 감성분석(전처리 및 나이브 베이즈) - 영화 후기 감성분석 - 하루끝(20240403)

728x90
반응형

영화 후기 감성 분석(전처리)

 

 

1. 데이터 로딩 및 품질 관리

 

결측치 제거

 

최종 학습 데이터 선택

 

728x90

 

 

2. 전처리

1) 불용어 사전 생성

 

2) 추가 불용어 처리

  - 빈도수가 1인 단어 목록 불용어 사전 추가

stops_movie = stops_movie + [word for word in total_text if total_text.count(word) == 1]

 

  - 기존 불용어 사전에 추가(이전 게시물 쇼핑몰 후기 감성분석 때 사용한 불용어와 결합)

수업시간에는 stops = stops + movie_stops 로 끝냈는데, 오류가 갑자기 발생해서 위와같이 고쳤다. 

 

 

3) 토큰화 및 불용어 제거

 

 

4) 문장 결합

 

 

 

3. 데이터 분리

 

 

4. CountVectorizer 적용

 

CountVectorizer DTM

 

 

5. TF-IDF 변환

 

 

여기까지 전처리 끝

 

 

반응형

 

 

영화 후기 감성 분석(모델링 - 나이브 베이즈 모델)

1. 모델링 및 평가

 

2. 예측 실패 데이터 확인

df_fail_reviews = DataFrame({'reviews':fail_review, 'Predict': fail_ypre, 'True':fail_ytrue})

 

 

3. 적용

 

 

 

728x90
반응형