본문 바로가기

배우기/복습노트[Python과 분석]

[복습] Python | 분석 | 감성분석(나이브 베이즈) - 쇼핑몰 후기 감성분석

728x90
반응형

쇼핑몰 후기 감성 분석(나이브 베이즈)

 

1. 데이터 로딩

 

Y 가공(긍정: 1, 부정:0)

평점에서 이미 3이 제거된 상태로, 전처리가 되어있다.

부정은 0, 긍정은 1로 변환하였다.

 

 

2. 학습 데이터 선택

 

728x90

 

 

3. 전처리

1) 불용어 및 조사 사전 생성

 

2) 추가 불용어 처리

  - 빈도수가 1인 단어 목록 불용어 사전 추가

 

3) 토큰화 + 일반화

 

4) 문장 결합

CounterVectorizer의 input data는 문장이어야 한다. 그러나 토큰화를 하기 위해서는 위 과정에서처럼 문장을 쪼갤 수 밖에 없었다. 

그러므로 아래 CountVectorizer 적용을 하기 위하여 문장으로 변경한다. 즉, CountVectorizer가 요구하는 fitting을 위한 문장으로 변경하는 작업이다.

 

 

4. 데이터 분리

X_train, X_test, Y_train, Y_test = train_test_split(total_text, train_y, random_state = 0)

 

 

5. CountVectorizer 적용

vect1 = CountVectorizer(anlayzer = 'word') 의 vect1는 빈 모델이다. word만 가져오겠다는 의미이다.

 

CountVectorizer DTM

단어별 순서대로 나열한 매트릭스(값은 각 단어의 포함 횟수를 의미함)

 

 

 

6. TF-IDF 변환

 

 

7. 훈련 및 평가

 

 

반응형

 

 

8. 적용

 

 

728x90
반응형