본문 바로가기

배우기/복습노트[R과 분석]

[복습] R(programming language) 정규식 표현식과 정규식을 사용한 문자열 추출(str_extract, str_match)

728x90
반응형

정규식 표현식은 sql에서도 공부하였듯이 문자열을 일반화시키는 패턴으로, stringr 패키지의 문자열 함수 대부분이 정규식 표현 전달이 가능하다.

 

 

예) 패턴 확인(숫자로 끝나는 ID 추출)

 

 

예) 문자열의 일부 삭제/치환

Line 2처럼 숫자를 콤마로 치환하거나, email에서 id 부분을 삭제할 수 있다.

 

 

문자열 추출은 서브패턴을 지정하고 추출하겠다는 의미로,

정규식을 사용한 문자열 추출은

  - 패턴에 매칭되는 값만 추출하는 str_extract과

  - 패턴에 매칭되는 값들 중 일부 영역(서브패턴)을 추출하는 str_match 가 있다.

 

 

아래 벡터에서 각각 역이름, 호선 정보를 추출하여 보자.

 

 

 

또한 다음의 문자열에서 email_id 추출하여보자(추출함수 사용)

 

 

이번엔 str_match를 사용하여 여러 개의 그룹을 추출하여 보자

 

 

728x90

 

 

연습문제

seoul_new.txt 파일을 읽고 게시글 번호, 제목, 작성 날짜, 조회수 컬럼을 갖는 데이터 프레임으로 표현하여라.

 

 

 

연습문제 하나를 더 풀어보자.

delivery.csv 파일을 읽고 각 읍면동명 통화건수의 총합을 구하여라

단 을지로3가 → 을지로, 원효로4가 → 원효로, 명륜1가 → 명륜 으로 수정한 후 총합을 구하여라.

 

아래는 내 풀이를 첨부하겠다.

 

 

 

728x90
반응형