본문 바로가기

728x90
반응형

배우기

(265)
[Python] 파이썬(아나콘다) 설치 방법 (os: linux ubuntu) 기본적으로 리눅스에 파이썬이 설치되어 있다. 콘솔창에 $ python3 이라고 치면 작업 창이 뜬다. 리눅스용 파이썬(아나콘다)를 설치해보겠다. https://repo.anaconda.com/archive/ Index of / repo.anaconda.com 위에 접속하여 최신 버전 및 설치할 os를 확인한다. (설치 당시 버전은 2024.02-1-Linux-x86_64) $ wget https://repo.anaconda.com/archive/Anaconda3-2024.02-1-Linux-x86_64.sh $ bash Anaconda3-2024.02-1-Linux-x86_64.sh Please, press ENTER to continue 에서 엔터 치면 END USER LICENSE AGREEMENT가..
R 과 R Studio 설치하기(os: Linux Ubuntu) 1. R-base 설치 $ sudo apt-get update $ sudo apt-get install r-base 잘 구동 되는 걸 확인할 수 있다. 2. R studio 설치 https://www.rstudio.com/products/rstudio/download-server/ Posit The best data science is open source. Posit is committed to creating incredible open-source tools for individuals, teams, and enterprises. posit.co 위 사이트에 접속하여 os에 맞는 r studio에 대한 최신 버전을 확인한다. 내가 설치하려는 os는 ubuntu 22 이며, 작성 당시 버전은 rstu..
Oracle Linux(7.6)에 Oracle Database(12c) 설치 https://metime.tistory.com/381 Linux Ubuntu 설치하기(vmware) 1. Ubuntu 설치 파일 다운로드 https://ubuntu.com/download/desktop https://ubuntu.com/download/desktop ubuntu.com 2. Ubuntu 22.04.4 LTS 다운로드(다운로드 오래 걸림) 리눅스는 OS의 일종이며, ubuntu는 종류 중 하나이다. 윈 metime.tistory.com 위 글에서 설치한 Oracle Linux에서 Oracle Database를 설치하려고 한다. 먼저 Oracle 설치 전 준비사항 1) root user 변경 관리자 권한 없는 경우) sudo su - root 관리자 권한 있는 경우) su - root 2)..
Oracle Linux(7.6) 설치(vmware) oracle DBMS를 리눅스 서버에 설치하려고 했으나 기존에 설치한 ubuntu에서는 지원을 하지 않으므로 Oracle Linux를 설치하려고 한다. 1. 아래 사이트 접속 후 설치 파일 다운로드(회원 가입 필수) https://edelivery.oracle.com/osdc/faces/Home.jspx Oracle Software Delivery Cloud See a quick, introductory tour of the download process edelivery.oracle.com 2. Oracle Linux 7.6 버전 검색 DLP: Oracle Linux 7.6 (Oracle Linux) 클릭 3. 그러면 우측 상단에 Continue 버튼이 생김. 클릭 4. 아래와 같이 Platforms/..
Linux Ubuntu 설치하기(vmware) 1. Ubuntu 설치 파일 다운로드 https://ubuntu.com/download/desktop https://ubuntu.com/download/desktop ubuntu.com 2. Ubuntu 22.04.4 LTS 다운로드(다운로드 오래 걸림) 리눅스는 OS의 일종이며, ubuntu는 종류 중 하나이다. 윈도우의 가장 큰 장점이자 단점이 GUI 지원이라는 것인데, 편리하면서도 리소스를 많이 차지하기 때문이다. 그래서 대용량 처리를 위한 OS로는 적합하지 않다. 그러므로 대부분의 현업 서버는 unix를 사용한다. 유닉스 종류에는 hp사의 hp unix, ibm사의 aix, sun사의 solaris 가 있는데, 유닉스는 유료이므로 비슷한 버전인 리눅스를 설치한다. 리눅스도 종류가 많다. 개발사에 ..
vmware 설치하기 vmware를 설치하는 이유는 window에 리눅스 os를 설치하기 위한 가상환경을 구축하기 위해서이다. 1. vmware 홈페이지 접속 https://www.vmware.com/ 2. Workstation Pro 클릭 Prodcut 메뉴로 들어가서 Workstation Pro를 다운(30일 평가판이므로, 30일이 지나면 자동으로 workstation player로 바뀌므로 그냥 다운받아도 됨) 3. Try Workstation 17 Pro Download Trial Download Trial 클릭 4. Windows용 다운 왼쪽의 Workstation 17 Pro for Windows 다운 5. 설치 파일 실행 6. 설치 진행 Next 클릭 라이선스 동의 후 Next 체크 후 Next 설치 경로 지정 ..
[복습] Python | 분석 | 시계열 분석(2) 시계열 분석 중 LSTM은 분석 시 업데이트를 수행함. 이 말의 의미는, 시계열 모형이 가지고 있는 단점부터 파악해보자면 바로 직전 데이터로 다음 관찰 일을 예측하는 것이다. 그 다음 STEP은 예측값을 가지고 예측을 하게 된다. 그 다음 STEP은 또 예측한 가상의 값으로 예측을 수행하게 된다. 따라서 시간이 지날 수록 의미가 감소하는 것이다. 그러므로 업데이트라고 하는 것은, 예측한 값이 예측을 하는 행위를 막는 방법이다. 처음 설정된 train data로 다음 값을 예측하는 것은 의미가 있다. 그러나 predict value가 predict value를 예측 하는 것은 오차가 있으므로, 예측한 predict을 train으로 합쳐서 다시 그 다음을 예측하게 되는 것이다. 위 그림처럼 예측한 값이 다시..
[복습] Python | 분석 | 군집분석(5) 군집분석 - 거리기반 모델 - 설명변수가 수치형일수록 좋음 (범주형 → 범주형 거리 계산도 가능함) - 중요하든 중요하지 않든 같은 가중치를 주는 게 거리기반 모델의 단점 1. 거리 2. 모델링 1) 계층: 밀집한 데이터의 군집 형성에 효과적 2) 비계층: 밀집한 데이터의 군집 형성에 효과적. 초기 seed 값을 어디에 위치해도 결과적으로 군집은 잘 형성됨. 가장 안정적인 군집 분석(kmeans) 3) 혼합분호: 밀집한 데이터든 밀집하지 않은 데이터든 효과적으로 군집을 형성해줌. 즉, 밀집한 데이터일때에도 각 집합의 분포를 고려한 방식으로 군집을 형성함 4) DBSCAN: 기하학적 분포에 유리 5) SOM: 밀집한 데이터에 대해서 오히려 군집 형성에 효과적이지 않음. 군집간의 거리가 먼 데이터일 때 효과..
[복습] Python | 분석 | 군집분석(2) 군집분석 - 거리 기반 모델 - 비지도 학습(Y 없음) - 여러 변수를 사용하여 각 데이터들끼리의 유사도를 거리로 측정하여 유사성이 높은 데이터들끼리 하나의 군집으로 묶는 과정 - 거리를 사용하여 유사성을 측정 ** 주의 1) 이상치에 민감 2) 스케일링에 민감 3) 변수 조합에 영향을 많이 받음 4) 변수의 형태에 영향을 많이 받음(범주형 보다는 수치형이 유리) 명목형일 때에는 일치도로 거리를 계산, 즉 변수의 형태에 영향을 받는다는 의미 1. 종류 1) 계층형 군집 분석 - 거리가 가장 가까운 데이터들끼리 순차적으로 그룹을 형성하는 과정(항상 동일한 결과 리턴) - 군집의 수가 정해져 있지 않아도 수행 가능 - 군집과의 거리를 정의해야 함(single, complete, average, centroi..
[복습] Python | 분석 | 회귀분석(2) - (전통)회귀분석 총정리 + 하루끝(20240215) 1. 데이터 로딩 2. EDA(Exploratory Data Anlaysis) 1) corr corr은 음의 값이 커져도 값이 유의미해지므로 절대값을 씌워서 해석해보는 것도 좋음. 다만 절대값을 씌우면 음의 상관관계는 알 수 없음에 주의할 것. 2) 분포 시각화 → 스케일링 고려가 필요한지 분포 시각화로 확인 pd에서 제공해주는 scatter는 dataframe을 받는다. 자기 자신에 대한 상관계수는 1이므로, 자기 자신에 대한 분포가 출력된다(대각선). time 변수가 정규성에 위배되어보이기는 하나, 문제가 되지는 않을 듯 하다. 회귀분석에서 선형성, 등분산성, 독립성, 정규성 등은 잔차의 정규성을 따라야 한다. 그런데 time은 잔차에 대한 그래프가 아니므로 문제가 되지 않는 것이다. 변수 분포를 보..

728x90
반응형