본문 바로가기

728x90
반응형

전체 글

(315)
[제품후기] 시이닷 한국의 미 화이트 단청 기계식 키보드 Dancheong White Keyboard 구매 후기 3월 29일에 주문했는데 드디어 키보드가 도착했다. 4월 16일에 도착했으니, 20일 가까이 소요됐다. 주문이 꽤 밀린 것 같은데, 막상 도착하고 보니 기다린 보람이 있을 정도로 너무 예뻤음. 매우 큰 박스가 도착. 박스에서 꺼내어보니 이렇게 완충재로 감싸서 들어있었다. 이제까지 산 키보드와는 다르게 황토색 박스에 담겨 있었다. 진짜 박스에 담긴 느낌. 저 위의 문구, 안녕하세요, 이건 너무 예쁜 키보드, 놀라운 키보드, 디자인 키보드, 처음 만나는 키보드, 와 이런 키보드는 처음 보네, 지금 곧 배송됩니다, 경비실에 맡겨주세요, 감사합니다. ... 내가 쓴 줄 알았다. 특히 저 경비실에 맡겨주세요 문구 때문에 상자에 각인된 줄 알았음. 상자를 열어보니, 마우스 패드가 먼저 보인다. 마우스 패드는 사각이..
[복습] Python | 분석 | 감성분석(LSTM) - 쇼핑몰 후기 감성분석 - 하루끝(20240404) 데이터 로딩 및 전처리, 데이터 분리는 아래 게시글과 동일하므로 모델링부터 진행하도록 하겠다. https://metime.tistory.com/397 1. 데이터 로딩 https://metime.tistory.com/397 2. 전처리(형태소 분석) 1) 불용어 사전 2) 토큰화, 일반화 3) 벡터화 4) 패딩 https://metime.tistory.com/397 3. 데이터 분리 https://metime.tistory.com/397 4. 모델링 임베딩 차원 및 hidden unit 수 결정(경험적 결정) 모델 생성 모델 compile 정지 규칙 생성 학습 학습 결과 확인 6. 평가 7. 적용
[복습] Python | 분석 | 감성분석(전처리 및 RNN) - 쇼핑몰 후기 감성분석 1. 데이터 불러오기 Y 가공(긍정: 1, 부정: 0) 학습 데이터 선택 2. 전처리 1) 불용어 및 조사 사전 생성 2) 추가 불용어 처리 - 빈도수가 1인 단어 목록 불용어 사전 추가 3) 토큰화 + 일반화 3. RNN 전처리(RNN에 필요한 형태로 전처리) STEP 1) 정수 인코딩(벡터화) - 지난 나이브 베이즈 게시글에서는 countvectorizer 사용 1) 단어별 매핑 정보 생성 2) 정수 변환 3) 패딩(padding) - 길이가 다른 학습 데이터의 길이를 맞추어 주는 작업(zero - padding: 부족한 자리를 0으로 채움) DTM을 만들어야 하는데, 지난 게시물에서의 countvectorizer는 DTM을 단어별로, 가나다 순으로 나열하여 가방이 0, 신발이 1, 학교가 13 등 ..
[복습] Python | 분석 | 감성분석(전처리 및 나이브 베이즈) - 영화 후기 감성분석 - 하루끝(20240403) 영화 후기 감성 분석(전처리) 1. 데이터 로딩 및 품질 관리 결측치 제거 최종 학습 데이터 선택 2. 전처리 1) 불용어 사전 생성 2) 추가 불용어 처리 - 빈도수가 1인 단어 목록 불용어 사전 추가 - 기존 불용어 사전에 추가(이전 게시물 쇼핑몰 후기 감성분석 때 사용한 불용어와 결합) 수업시간에는 stops = stops + movie_stops 로 끝냈는데, 오류가 갑자기 발생해서 위와같이 고쳤다. 3) 토큰화 및 불용어 제거 4) 문장 결합 3. 데이터 분리 4. CountVectorizer 적용 CountVectorizer DTM 5. TF-IDF 변환 여기까지 전처리 끝 영화 후기 감성 분석(모델링 - 나이브 베이즈 모델) 1. 모델링 및 평가 2. 예측 실패 데이터 확인 3. 적용
[복습] Python | 분석 | 감성분석(나이브 베이즈) - 쇼핑몰 후기 감성분석 쇼핑몰 후기 감성 분석(나이브 베이즈) 1. 데이터 로딩 Y 가공(긍정: 1, 부정:0) 평점에서 이미 3이 제거된 상태로, 전처리가 되어있다. 부정은 0, 긍정은 1로 변환하였다. 2. 학습 데이터 선택 3. 전처리 1) 불용어 및 조사 사전 생성 2) 추가 불용어 처리 - 빈도수가 1인 단어 목록 불용어 사전 추가 3) 토큰화 + 일반화 4) 문장 결합 CounterVectorizer의 input data는 문장이어야 한다. 그러나 토큰화를 하기 위해서는 위 과정에서처럼 문장을 쪼갤 수 밖에 없었다. 그러므로 아래 CountVectorizer 적용을 하기 위하여 문장으로 변경한다. 즉, CountVectorizer가 요구하는 fitting을 위한 문장으로 변경하는 작업이다. 4. 데이터 분리 5. C..

728x90
반응형