2010-02-10 3 views
2

간단한 웹 스크래퍼 (루트 URL에서 모든 링크를 가져온 다음 해당 링크에서 모든 전자 메일을 가져옵니다)를 만들면 HTML 민첩성 팩을 사용하는 것이 가치가 있습니까? 나는 HTML 태그를 실제로보고 있지 않으며, 단순히 전체 문서 내의 이메일을 스캔하려고합니다.HTML 민첩성 팩 대 정규식

HTML 민첩성 팩을 사용하는 것이 더 효율적입니까?

나는이 전자 메일이 필요하므로 엄격하게 제거하고 있으며 약 100 개의 링크가 있습니다. 약 500 개의 이메일 만 스크랩됩니다. 걱정할 필요가 없습니다. 윤리를 염두에두고 있습니다.

+0

HTML 파일의 전자 메일 주소 스크래핑. 좋은. –

답변

2

이렇게 많은 질문이 있습니다. 제가 읽은 대부분의 내용은 웹 스크래핑에 정규 표현식을 사용하지 않습니다.

반면에 - 텍스트의 HTML 특성에 관계없이 텍스트 구문 분석 (내가 올바르게 이해하는 경우)을 원한다면 정규 표현식을 사용하는 것이 더 좋을 수 있습니다.

+0

고마워, 이건 내가 정확히 게시 한 이유야. 나는 이것에 대한 수많은 스레드를 읽었지만 HTML이 포함되어 있는지 여부에 상관하지 않는다. – cam

관련 문제