본문 바로가기
728x90
반응형

전체 글328

[책정리] AI의 진화 과정 단계 AI의 진화 과정 4가지 구분  1단계: 단순한 제어 프로그램을 '인공지능' 이라고 칭함 ▶ 예전부터 있었던 제어 공학이나 시스템 공학에 기초를 둔 기술ex) 가전제품 제조사가 마이크로 컴퓨터로 제어하는 에어컨이나 세탁기를 AI 가전제품 이라고 부르는 경우2단계: 고전적인 인공지능 ▶ 대응 패턴이 매우 다채로운 '규칙 기반 프로그램'ex) 고전적인 장기 게임이나 청소 로봇 등3단계: 기계학습을 도입한 인공지능 ▶ 기계학습이란 수많은 데이터를 토대로 일정 패턴을 학습하여 적절한 답을 찾아주는 방법ex) 빅데이터 분석이나 검색 엔진 등에 이용되는 기술4단계: 딥러닝을 도입한 인공지능 ▶ 딥러닝도 기계학습의 한 방법이지만, 특징량(데이터의 어느 부분을 참고해서 패턴을 나타내면 좋을지 가리키는 지표)을 직접 찾.. 2024. 6. 12.
[책정리] 기획자와 AI 엔지니어와 협업하기 기획자의 생각- 상품과 서비스의 타깃은 누구인가?- 비즈니스의 어느 부분에 AI를 도입할 것인가?- 비즈니스 성공에 필요한 AI의 정확도는?- 개발 비용의 상한선은 얼마인가?  AI 엔지니어의 발상- 어떤 시스템을 설계할 것인가?- 구체적으로 어떤 AI를 개발할 것인가?- 기술적으로 어디까지 AI의 정확도를 높일 수 있는가?- 개발 기간은 어느 정도 필요한가?  예를 들면, 기술적으로 AI 정확도를 높일 수 있을지라도 개발 비용이 제한적이라면 이는 불가능한 상황이라고 볼 수 있다.그리고 어느 정도 성공이라고 생각되는 AI의 정확도를 지정하고, 추후 보완 작업을 통하여 정확도를 상승시키는 방법 또한 고안해 낼 수 있을 것이다. 이런 면에서 기획자와 AI 엔지니어는 끊임없는 소통이 필요하다고 생각한다.   .. 2024. 6. 11.
[제품후기] 시이닷 다이어리 기계식 키보드 Diary Keyboard 구매 후기 시이닷에서 단청 키보드를 구매하고 괜찮아서 친구에게 선물한 키보드 화이트바디에 적축으로 구매했다.    이렇게 뽁뽁이로 둘러 싸여서 배송       시이닷 키보드 상자 특유의 저 레터링.        샘플로 단청 키보드 키캡이 들어 있었다.내부는 이렇게 포장되어 있었음.사진에는 보이지 않지만 키캡 리무버도 함께 들어있다. 지난 단청 키보드는 보내주시는 분이 바빴는지 텐키 부분에 + 키와 엔터 키가 바뀌어서 꽂혀 있었는데 이번엔 잘 꽂혀있다.      귀여움. 나는 특히 저 지구 그림 키캡이 제일 귀여운 거 같다.      귀여운 건 크게      오른쪽 텐키 부분     영상으로 마무리 ! 2024. 6. 11.
[제품후기] 시이닷 한국의 미 화이트 단청 기계식 키보드 Dancheong White Keyboard 구매 후기 3월 29일에 주문했는데 드디어 키보드가 도착했다. 4월 16일에 도착했으니, 20일 가까이 소요됐다.주문이 꽤 밀린 것 같은데, 막상 도착하고 보니 기다린 보람이 있을 정도로 너무 예뻤음. 매우 큰 박스가 도착. 박스에서 꺼내어보니 이렇게 완충재로 감싸서 들어있었다. 이제까지 산 키보드와는 다르게 황토색 박스에 담겨 있었다. 진짜 박스에 담긴 느낌.저 위의 문구, 안녕하세요, 이건 너무 예쁜 키보드, 놀라운 키보드, 디자인 키보드, 처음 만나는 키보드, 와 이런 키보드는 처음 보네, 지금 곧 배송됩니다, 경비실에 맡겨주세요, 감사합니다.... 내가 쓴 줄 알았다. 특히 저 경비실에 맡겨주세요 문구 때문에 상자에 각인된 줄 알았음. 상자를 열어보니, 마우스 패드가 먼저 보인다. 마.. 2024. 4. 16.
[복습] Python | 분석 | 감성분석(LSTM) - 쇼핑몰 후기 감성분석 - 하루끝(20240404) 데이터 로딩 및 전처리, 데이터 분리는 아래 게시글과 동일하므로 모델링부터 진행하도록 하겠다. https://metime.tistory.com/397 1. 데이터 로딩 https://metime.tistory.com/397 2. 전처리(형태소 분석) 1) 불용어 사전 2) 토큰화, 일반화 3) 벡터화 4) 패딩 https://metime.tistory.com/397 3. 데이터 분리 https://metime.tistory.com/397 4. 모델링 임베딩 차원 및 hidden unit 수 결정(경험적 결정) 모델 생성 모델 compile 정지 규칙 생성 학습 학습 결과 확인 6. 평가 7. 적용 2024. 4. 15.
[복습] Python | 분석 | 감성분석(전처리 및 RNN) - 쇼핑몰 후기 감성분석 1. 데이터 불러오기 Y 가공(긍정: 1, 부정: 0) 학습 데이터 선택 2. 전처리 1) 불용어 및 조사 사전 생성 2) 추가 불용어 처리 - 빈도수가 1인 단어 목록 불용어 사전 추가 3) 토큰화 + 일반화 3. RNN 전처리(RNN에 필요한 형태로 전처리) STEP 1) 정수 인코딩(벡터화) - 지난 나이브 베이즈 게시글에서는 countvectorizer 사용 1) 단어별 매핑 정보 생성 2) 정수 변환 3) 패딩(padding) - 길이가 다른 학습 데이터의 길이를 맞추어 주는 작업(zero - padding: 부족한 자리를 0으로 채움) DTM을 만들어야 하는데, 지난 게시물에서의 countvectorizer는 DTM을 단어별로, 가나다 순으로 나열하여 가방이 0, 신발이 1, 학교가 13 등 .. 2024. 4. 15.
[복습] Python | 분석 | 감성분석(전처리 및 나이브 베이즈) - 영화 후기 감성분석 - 하루끝(20240403) 영화 후기 감성 분석(전처리) 1. 데이터 로딩 및 품질 관리 결측치 제거 최종 학습 데이터 선택 2. 전처리 1) 불용어 사전 생성 2) 추가 불용어 처리 - 빈도수가 1인 단어 목록 불용어 사전 추가 - 기존 불용어 사전에 추가(이전 게시물 쇼핑몰 후기 감성분석 때 사용한 불용어와 결합) 수업시간에는 stops = stops + movie_stops 로 끝냈는데, 오류가 갑자기 발생해서 위와같이 고쳤다. 3) 토큰화 및 불용어 제거 4) 문장 결합 3. 데이터 분리 4. CountVectorizer 적용 CountVectorizer DTM 5. TF-IDF 변환 여기까지 전처리 끝 영화 후기 감성 분석(모델링 - 나이브 베이즈 모델) 1. 모델링 및 평가 2. 예측 실패 데이터 확인 3. 적용 2024. 4. 14.
[복습] Python | 분석 | 감성분석(나이브 베이즈) - 쇼핑몰 후기 감성분석 쇼핑몰 후기 감성 분석(나이브 베이즈) 1. 데이터 로딩 Y 가공(긍정: 1, 부정:0) 평점에서 이미 3이 제거된 상태로, 전처리가 되어있다. 부정은 0, 긍정은 1로 변환하였다. 2. 학습 데이터 선택 3. 전처리 1) 불용어 및 조사 사전 생성 2) 추가 불용어 처리 - 빈도수가 1인 단어 목록 불용어 사전 추가 3) 토큰화 + 일반화 4) 문장 결합 CounterVectorizer의 input data는 문장이어야 한다. 그러나 토큰화를 하기 위해서는 위 과정에서처럼 문장을 쪼갤 수 밖에 없었다. 그러므로 아래 CountVectorizer 적용을 하기 위하여 문장으로 변경한다. 즉, CountVectorizer가 요구하는 fitting을 위한 문장으로 변경하는 작업이다. 4. 데이터 분리 5. C.. 2024. 4. 14.
[복습] Python | 분석 | 감성분석(워드 클라우드) 쇼핑몰 후기 감성분석 전처리 및 워드 클라우드 시각화 1. 데이터 불러오기 2. 학습 데이터 선택 3. 전처리regex = True는 Series 이므로 설정한 것 4. 기타 불용어 제거 고려1) 한 글자 단어 목록 2) 빈도수가 1인 단어 목록 3) 추가 불용어 제거 고려 5. 워드 클라우드 생성pip install wordcloud 1) 전체 워드 클라우드(긍정/부정 구분 없이, 명사, 형용사, 동사 모두 포함) 2) 명사에 대한 긍정 / 부정 워드 클라우드 작성 긍정 워드 클라우드 부정 워드 클라우드 워드 클라우드 시각화 끝 2024. 4. 14.
[복습] Python | 분석 | 감성분석 Intro 이미지와 영상은 픽셀 사이즈만 맞추면(영상은 프레임 단위로 쪼개는 것이 중요) 된다. 그리고 딥러닝 학습 시 입력값이 수치로 변환되어야 한다(output 또한 수치). 또한 딥러닝, 머신러닝에서 중요한 것은 데이터 품질관리이다. 모델링도 중요하지만 데이터 품질관리가 더 중요하다. 문장의 감성분석의 경우, 긍정/부정을 나누는 것은 분류모델로 모의한다. 인간이 직접 리뷰를 전부 읽고(평점이 있는 경우 긍/부정을 쉽게 구분할 수 있음), 긍정인지 부정인지의 라벨링 작업을 직접 진행하여야 한다. 즉 사람의 눈을 거치는 작업이 필요한 것이다. 평점이 1~5점이 있는 경우, 다섯 개의 라벨링을 거쳐야 한다. 1, 2 점을 부정, 3을 삭제, 4, 5는 긍정 등으로 Y 라벨링의 분석 목적에 맞게 구분할 수도 있다. .. 2024. 4. 13.
[복습] Python | 분석 | 딥러닝(CNN) 이미지 분석(2) + 하루끝(20240402) CNN: 이미지 분석의 꽃 층을 추가할 수록 좋다. 레이어가 추가될수록 더 많은 신호를 받을수 있는 좋은 점이 있으나, 기울기 소실 문제는 해결되지 않는다. activation은 relu 가 좋은 편이다. 기울기 소실 문제를 해결하기 위한 다른 activation은 찾기 어려우므로, 다른 방법을 찾다 보니 CNN의 파생인 vgg 또는 resnet이 탄생했다. densenet, googlenet도 있다. 전부 CNN 기반 모델로, keras 문법으로 구현하는데에는 한계가 있어서 tensorflow로 구현해야 하는데, 복잡도가 증가하게 된다. 딥러닝 모형을 구현하는 데에 있어 두 가지 방법이 있다. 1. 제로 베이스에서 출발: 쌓은 탑이 없는 상태로, 처음부터 모델링한다. 가중치를 랜덤하게 초기에 선택해서 .. 2024. 4. 12.
[제품후기] 에고스페이스 스페이스보드 책상 파티션 철제 메모보드 클램프형 구매 최근 작업실을 마련하면서 책상에 메모보드 하나 두고 싶은 생각이 들어 괜찮은 제품이 없나 둘러보고 있었다.그러다가 오늘의집 에서 자석형 메모보드 발견하고 구입!   도착      개봉        부속품들도 개봉참고로 부속품들은 개별 구매 하여야 한다.    설치!클램프형으로 사서 이렇게 아래 부분을 조여서 고정      설치 완료.      부속품들도 부착 완료부속품들의 경우 포인트를 주기 위해서 다른 색상들도 판매를 하고 있으나 나는 그냥 메모보드 판과 같은 색으로 주문했다.        부속품 합친 총 금액   아직 아무것도 부착 안해서 잘은 모르겠으나 일단 공간 분리가 되어서 만족한다.책상 가로 사이즈랑도 딱 맞아서 마음에 듦. 2024. 4. 12.
[복습] Python | 분석 | 딥러닝(CNN) 이미지 분석 + 하루끝(20240401) input이 이미지가 될 수는 있으나 output이 이미지가 될 수는 없다(정형 데이터화되어 수치로 들어감). 딥러닝 구현으로 얻게 된 데이터 특성을 가지고 이미지를 찾아부는 검색 엔진까지 들어가야지 이미지가 출력된다. 1. KNN : 이미지를 비교할 때 픽셀 별 단순 차이만 가지고 거리를 계산한다. 어떤 픽셀이 보다 강조되어야 하는지 측정하기가 어려운 것이 단점이다. (이미지 유사도가 높은 = 거리가 짧은) 2. KNN + PCA: 변동성이 가장 많은 픽셀에 초점을 맞춰(PCA), 높은 가중치를 부여한 픽셀을 조합하여 인공변수를 만들어 거리를 계산하는 것이 효과적이어서 이렇게 보완되어 발전하였다. 인근 픽셀 유사도를 찾아야 하는데 머신러닝이므로 flatten 할 수밖에 없다. 위-아래 구성된 픽셀이 f.. 2024. 4. 1.
[복습] Python | 분석 | 딥러닝(ANN) - stopping rule 적용 https://metime.tistory.com/386 위 게시글에 이어서 cancer data 분석에 대하여 stopping rule을 적용해보겠다. epoch 설정 시 stopping rule 적용은 오차, 정확도가 일정 이상 변화나 개선이 없을 때 자동으로 stop 되도록 설계하는 것이다. epoch가 많아질수록 과대적합되며, epoch 수를 관측하여 많아지기 전에 중단 시키는 것이 좋다. 1. 데이터 로딩 2. 스케일링 3. Y 더미 변수 변경 4. train/test split 5. 모델링 1) seed값 고정 2) 모델 정의 3) 오차함수, 최적화 함수 정의 4) 정지 규칙 생성 monitor 설정이 중요하다. 정지 규칙을 만드는 측정 대상이다. patience 는 모니터링 횟수이다(5로 지정.. 2024. 4. 1.
[복습] Python | 분석 | 딥러닝(ANN) ANN에 들어가기에 앞서 딥러닝 정리를 한번 더 해보겠다. 딥러닝 - 머신러닝의 일종(신경망 기반 모델) - 비정형 데이터 분석 수요 증가에 따른 딥러닝 모델 발전 - 지도학습(Y가 존재하는 모형) - 종류: ANN(회귀, 분류(2진 class 등에 따라 출력층 변경 가능), CNN(이미지(output이 이미지는 될 수 없음, 라벨링 결과에 맞게 이미지의 특성을 텍스트로 반환함), RNN, LSTM,... (RNN, LSTM은 시계열로도 사용하고 텍스트 마이닝에서도 주로 사용함) - 구현 프레임 워크 1) tensorflow(tf): 구글사 개발, 확장성은 좋으나 어려움(또 다른 언어를 배우는 느낌, 그래서 사용자가 사용하기에 버겁다는 느낌을 받음). 즉 문법이 다소 복잡하나 확장성이 강함 2) kera.. 2024. 4. 1.
728x90
반응형