유효한 URL을 처리하는 데 필요한 텍스트가 많습니다.대용량 텍스트/HTML 파일에서 URL 추출
입력이 막연하게 HTMLish인데, 대부분 HTML입니다. 그러나 실제로는 유효 HTML이 아닙니다.
저는 정규식으로 문제를 일으키려고했습니다. 내가 함께 일하고 파일이
을 "는 파서을 사용하여"한 가지 고려해야 할 필요가있다 -
당신은 (나는 다른 HTML + 정규식 질문에 읽은 비명 또는 가능하게) 말을하기 전에 약 5GB 크기
필자는 실패하지 않고, 또는 며칠을 다룰 수있는 파서를 모른다. 또한, 텍스트 내용이 , 주로 html이지만, 반드시 유효한 html이라는 것은 매우 관대 한 파서가 필요하다는 것을 의미합니다. 마지막으로 모든 링크가 반드시 <a>
태그 (일부는 일반 텍스트 일 수 있음)에 있어야합니다.
내가 문서 구조에 대해별로 신경 쓰지 않는다면 WRT에서 링크를 추출하는 더 좋은 대안이 있습니까?
가 지금 내가 정규식을 사용하고 있습니다 :
\b(([\w-]+://?|www[.])[^\s()<>]+(?:\([\w\d]+\)|([^[:punct:]\s]|/)))
(그렙 -E에서)
하지만 심지어와 함께, 나는 약 3 시간 동안 실행시키는 후 포기했다.
Regex 엔진 성능에 중요한 차이가 있습니까? MacOS의 명령 행 grep
을 사용하고 있습니다. 성능이 좋은 다른 호환 구현이있는 경우 옵션 일 수 있습니다.
MacOS/명령 줄이 좋지만 언어/플랫폼에 대해서는별로 신경 쓰지 않습니다.
계획없이 물건을 잡아야합니까? (즉, 'http : //'는 아님) – icktoofay
@icktoofay - 좋을 것 같습니다. –