2016-08-07 4 views
0

http 및 https가 포함 된 텍스트가 있습니다. URL을 얻으려고했는데 http 만 잘 작동합니다.regex URL 패턴, http https in R

url_regex < - "HTTP [^ ([: 빈 :] | \\"| < | & | #의 \ n \ r 일)] + "나는 다음과 같은 시도

, 그것을 작동하지 않는

url_regex < - "(HTTP | HTTPS) [^ ([: 빈 :] | \\"| < | & | #의 \ n \ r 일)]. + "

http 또는 https로 시작하는 URL을 가져 오려면 어디에서 수정해야합니까?

p.s. - 나는 다른 언어로 작동하는 정규식으로 시도했다. R은 regex 버전을 사용 했습니까?

답변

1

문제는 처음에 정규식을 닫는 정규식의 중간에 인용 부호가있는 것입니다. 두 정규식은 시작과 끝에 하나의 표시로 정의되어야하고 그것은 작동하고 당신이 정규식 안에 인용 부호를 사용할 수 있도록합니다 :

url_regex <- '(http|https)[^([:blank:]|\\"|<|&|#\n\r)]+' 
0

체크 아웃이 post. 고려해야 할 다른 확장 기능이 있다면 rex 패키지를 사용하여 쉽게 수정할 수있는 정규식을 만들 수 있습니다. 잘 문서화되어 있습니다.