본문 바로가기
728x90
반응형

배우기/복습노트[Python과 분석]107

[복습] Python | 분석 | 감성분석(LSTM) - 쇼핑몰 후기 감성분석 - 하루끝(20240404) 데이터 로딩 및 전처리, 데이터 분리는 아래 게시글과 동일하므로 모델링부터 진행하도록 하겠다. https://metime.tistory.com/397 1. 데이터 로딩 https://metime.tistory.com/397 2. 전처리(형태소 분석) 1) 불용어 사전 2) 토큰화, 일반화 3) 벡터화 4) 패딩 https://metime.tistory.com/397 3. 데이터 분리 https://metime.tistory.com/397 4. 모델링 임베딩 차원 및 hidden unit 수 결정(경험적 결정) 모델 생성 모델 compile 정지 규칙 생성 학습 학습 결과 확인 6. 평가 7. 적용 2024. 4. 15.
[복습] Python | 분석 | 감성분석(전처리 및 RNN) - 쇼핑몰 후기 감성분석 1. 데이터 불러오기 Y 가공(긍정: 1, 부정: 0) 학습 데이터 선택 2. 전처리 1) 불용어 및 조사 사전 생성 2) 추가 불용어 처리 - 빈도수가 1인 단어 목록 불용어 사전 추가 3) 토큰화 + 일반화 3. RNN 전처리(RNN에 필요한 형태로 전처리) STEP 1) 정수 인코딩(벡터화) - 지난 나이브 베이즈 게시글에서는 countvectorizer 사용 1) 단어별 매핑 정보 생성 2) 정수 변환 3) 패딩(padding) - 길이가 다른 학습 데이터의 길이를 맞추어 주는 작업(zero - padding: 부족한 자리를 0으로 채움) DTM을 만들어야 하는데, 지난 게시물에서의 countvectorizer는 DTM을 단어별로, 가나다 순으로 나열하여 가방이 0, 신발이 1, 학교가 13 등 .. 2024. 4. 15.
[복습] Python | 분석 | 감성분석(전처리 및 나이브 베이즈) - 영화 후기 감성분석 - 하루끝(20240403) 영화 후기 감성 분석(전처리) 1. 데이터 로딩 및 품질 관리 결측치 제거 최종 학습 데이터 선택 2. 전처리 1) 불용어 사전 생성 2) 추가 불용어 처리 - 빈도수가 1인 단어 목록 불용어 사전 추가 - 기존 불용어 사전에 추가(이전 게시물 쇼핑몰 후기 감성분석 때 사용한 불용어와 결합) 수업시간에는 stops = stops + movie_stops 로 끝냈는데, 오류가 갑자기 발생해서 위와같이 고쳤다. 3) 토큰화 및 불용어 제거 4) 문장 결합 3. 데이터 분리 4. CountVectorizer 적용 CountVectorizer DTM 5. TF-IDF 변환 여기까지 전처리 끝 영화 후기 감성 분석(모델링 - 나이브 베이즈 모델) 1. 모델링 및 평가 2. 예측 실패 데이터 확인 3. 적용 2024. 4. 14.
[복습] Python | 분석 | 감성분석(나이브 베이즈) - 쇼핑몰 후기 감성분석 쇼핑몰 후기 감성 분석(나이브 베이즈) 1. 데이터 로딩 Y 가공(긍정: 1, 부정:0) 평점에서 이미 3이 제거된 상태로, 전처리가 되어있다. 부정은 0, 긍정은 1로 변환하였다. 2. 학습 데이터 선택 3. 전처리 1) 불용어 및 조사 사전 생성 2) 추가 불용어 처리 - 빈도수가 1인 단어 목록 불용어 사전 추가 3) 토큰화 + 일반화 4) 문장 결합 CounterVectorizer의 input data는 문장이어야 한다. 그러나 토큰화를 하기 위해서는 위 과정에서처럼 문장을 쪼갤 수 밖에 없었다. 그러므로 아래 CountVectorizer 적용을 하기 위하여 문장으로 변경한다. 즉, CountVectorizer가 요구하는 fitting을 위한 문장으로 변경하는 작업이다. 4. 데이터 분리 5. C.. 2024. 4. 14.
[복습] Python | 분석 | 감성분석(워드 클라우드) 쇼핑몰 후기 감성분석 전처리 및 워드 클라우드 시각화 1. 데이터 불러오기 2. 학습 데이터 선택 3. 전처리 regex = True는 Series 이므로 설정한 것 4. 기타 불용어 제거 고려 1) 한 글자 단어 목록 2) 빈도수가 1인 단어 목록 3) 추가 불용어 제거 고려 5. 워드 클라우드 생성 pip install wordcloud 1) 전체 워드 클라우드(긍정/부정 구분 없이, 명사, 형용사, 동사 모두 포함) 2) 명사에 대한 긍정 / 부정 워드 클라우드 작성 긍정 워드 클라우드 부정 워드 클라우드 워드 클라우드 시각화 끝 2024. 4. 14.
[복습] Python | 분석 | 감성분석 Intro 이미지와 영상은 픽셀 사이즈만 맞추면(영상은 프레임 단위로 쪼개는 것이 중요) 된다. 그리고 딥러닝 학습 시 입력값이 수치로 변환되어야 한다(output 또한 수치). 또한 딥러닝, 머신러닝에서 중요한 것은 데이터 품질관리이다. 모델링도 중요하지만 데이터 품질관리가 더 중요하다. 문장의 감성분석의 경우, 긍정/부정을 나누는 것은 분류모델로 모의한다. 인간이 직접 리뷰를 전부 읽고(평점이 있는 경우 긍/부정을 쉽게 구분할 수 있음), 긍정인지 부정인지의 라벨링 작업을 직접 진행하여야 한다. 즉 사람의 눈을 거치는 작업이 필요한 것이다. 평점이 1~5점이 있는 경우, 다섯 개의 라벨링을 거쳐야 한다. 1, 2 점을 부정, 3을 삭제, 4, 5는 긍정 등으로 Y 라벨링의 분석 목적에 맞게 구분할 수도 있다. .. 2024. 4. 13.
728x90
반응형