728x90
반응형
정규식 표현식은 sql에서도 공부하였듯이 문자열을 일반화시키는 패턴으로, stringr 패키지의 문자열 함수 대부분이 정규식 표현 전달이 가능하다.
예) 패턴 확인(숫자로 끝나는 ID 추출)
예) 문자열의 일부 삭제/치환
Line 2처럼 숫자를 콤마로 치환하거나, email에서 id 부분을 삭제할 수 있다.
문자열 추출은 서브패턴을 지정하고 추출하겠다는 의미로,
정규식을 사용한 문자열 추출은
- 패턴에 매칭되는 값만 추출하는 str_extract과
- 패턴에 매칭되는 값들 중 일부 영역(서브패턴)을 추출하는 str_match 가 있다.
아래 벡터에서 각각 역이름, 호선 정보를 추출하여 보자.
또한 다음의 문자열에서 email_id 추출하여보자(추출함수 사용)
이번엔 str_match를 사용하여 여러 개의 그룹을 추출하여 보자
728x90
연습문제
seoul_new.txt 파일을 읽고 게시글 번호, 제목, 작성 날짜, 조회수 컬럼을 갖는 데이터 프레임으로 표현하여라.
연습문제 하나를 더 풀어보자.
delivery.csv 파일을 읽고 각 읍면동명 통화건수의 총합을 구하여라
단 을지로3가 → 을지로, 원효로4가 → 원효로, 명륜1가 → 명륜 으로 수정한 후 총합을 구하여라.
아래는 내 풀이를 첨부하겠다.
728x90
반응형
'배우기 > 복습노트[R과 분석]' 카테고리의 다른 글
[실습문제] 2023. 12. 5.(화) (2문제) (로또 번호 생성기, 이전값 가져오기 팁) (0) | 2023.12.06 |
---|---|
[복습] R(programming language) 자료구조(행렬과 배열) (4) + 하루끝(20231205) (0) | 2023.12.06 |
[실습문제] 2023. 12. 4.(월) (2문제) (0) | 2023.12.05 |
[복습] R(programming language)에서의 순위(rank, dense_rank) + 하루끝(20231204) (0) | 2023.12.04 |
[복습] R(programming language)에서의 정렬(order, sort, orderBy, arrange) (0) | 2023.12.04 |