본문 바로가기
배우기/복습노트[R과 분석]

[복습] R(programming language) 정규식 표현식과 정규식을 사용한 문자열 추출(str_extract, str_match)

by 이름이김이름 2023. 12. 5.
728x90
반응형

정규식 표현식은 sql에서도 공부하였듯이 문자열을 일반화시키는 패턴으로, stringr 패키지의 문자열 함수 대부분이 정규식 표현 전달이 가능하다.

 

 

예) 패턴 확인(숫자로 끝나는 ID 추출)

 

 

예) 문자열의 일부 삭제/치환

Line 2처럼 숫자를 콤마로 치환하거나, email에서 id 부분을 삭제할 수 있다.

 

 

문자열 추출은 서브패턴을 지정하고 추출하겠다는 의미로,

정규식을 사용한 문자열 추출은

  - 패턴에 매칭되는 값만 추출하는 str_extract과

  - 패턴에 매칭되는 값들 중 일부 영역(서브패턴)을 추출하는 str_match 가 있다.

 

 

아래 벡터에서 각각 역이름, 호선 정보를 추출하여 보자.

 

 

 

또한 다음의 문자열에서 email_id 추출하여보자(추출함수 사용)

 

 

이번엔 str_match를 사용하여 여러 개의 그룹을 추출하여 보자

 

 

 

 

연습문제

seoul_new.txt 파일을 읽고 게시글 번호, 제목, 작성 날짜, 조회수 컬럼을 갖는 데이터 프레임으로 표현하여라.

 

 

 

연습문제 하나를 더 풀어보자.

delivery.csv 파일을 읽고 각 읍면동명 통화건수의 총합을 구하여라

단 을지로3가 → 을지로, 원효로4가 → 원효로, 명륜1가 → 명륜 으로 수정한 후 총합을 구하여라.

 

아래는 내 풀이를 첨부하겠다.

 

 

 

728x90
반응형