본문 바로가기

728x90
반응형

전체 글

(303)
[복습] Python | 분석 | 감성분석(LSTM) - 쇼핑몰 후기 감성분석 - 하루끝(20240404) 데이터 로딩 및 전처리, 데이터 분리는 아래 게시글과 동일하므로 모델링부터 진행하도록 하겠다. https://metime.tistory.com/397 1. 데이터 로딩 https://metime.tistory.com/397 2. 전처리(형태소 분석) 1) 불용어 사전 2) 토큰화, 일반화 3) 벡터화 4) 패딩 https://metime.tistory.com/397 3. 데이터 분리 https://metime.tistory.com/397 4. 모델링 임베딩 차원 및 hidden unit 수 결정(경험적 결정) 모델 생성 모델 compile 정지 규칙 생성 학습 학습 결과 확인 6. 평가 7. 적용
[복습] Python | 분석 | 감성분석(전처리 및 RNN) - 쇼핑몰 후기 감성분석 1. 데이터 불러오기 Y 가공(긍정: 1, 부정: 0) 학습 데이터 선택 2. 전처리 1) 불용어 및 조사 사전 생성 2) 추가 불용어 처리 - 빈도수가 1인 단어 목록 불용어 사전 추가 3) 토큰화 + 일반화 3. RNN 전처리(RNN에 필요한 형태로 전처리) STEP 1) 정수 인코딩(벡터화) - 지난 나이브 베이즈 게시글에서는 countvectorizer 사용 1) 단어별 매핑 정보 생성 2) 정수 변환 3) 패딩(padding) - 길이가 다른 학습 데이터의 길이를 맞추어 주는 작업(zero - padding: 부족한 자리를 0으로 채움) DTM을 만들어야 하는데, 지난 게시물에서의 countvectorizer는 DTM을 단어별로, 가나다 순으로 나열하여 가방이 0, 신발이 1, 학교가 13 등 ..
[복습] Python | 분석 | 감성분석(전처리 및 나이브 베이즈) - 영화 후기 감성분석 - 하루끝(20240403) 영화 후기 감성 분석(전처리) 1. 데이터 로딩 및 품질 관리 결측치 제거 최종 학습 데이터 선택 2. 전처리 1) 불용어 사전 생성 2) 추가 불용어 처리 - 빈도수가 1인 단어 목록 불용어 사전 추가 - 기존 불용어 사전에 추가(이전 게시물 쇼핑몰 후기 감성분석 때 사용한 불용어와 결합) 수업시간에는 stops = stops + movie_stops 로 끝냈는데, 오류가 갑자기 발생해서 위와같이 고쳤다. 3) 토큰화 및 불용어 제거 4) 문장 결합 3. 데이터 분리 4. CountVectorizer 적용 CountVectorizer DTM 5. TF-IDF 변환 여기까지 전처리 끝 영화 후기 감성 분석(모델링 - 나이브 베이즈 모델) 1. 모델링 및 평가 2. 예측 실패 데이터 확인 3. 적용

728x90
반응형