2013-11-27 2 views
1

수천 개의 URL 목록이 있습니다. 연락처 페이지를 크롤링하고 "문의하기"페이지의 URL에서 연락처 데이터를 긁는 방법에 대해 궁금합니다. 예 : 주소, 전화 및 이메일.많은 웹 사이트에서 연락처 데이터를 긁는 방법은 무엇입니까?

어떤 아이디어라도 도움이 될 것입니다.

정규식 사용에 대해 생각하고 있습니다. 그들은 전화와 이메일을 위해 일할 것이지만 근근이 살아가는 주소는 불가능합니다.

+0

은 개체 명입니다 인식 작업. NER은 NLP (Natural Language Processing)의 필드입니다. 예를 들어 시도해 볼 수 있습니다. 스탠포드는 ​​.NET 구현을위한 Entity Recogizer로 명명됩니다. https://sergey-tihon.github.io/Stanford.NLP.NET/StanfordNER.html –

답변

1

짧은 답변 거기에는 전능 한 방법이 없으며 어떤 페이지를 긁어 내는지에 따라 인간의 지능이 필요합니다. 이미 URL 목록에 범위를 좁혀 때문에

(1) 정보 (HTML)

를 수집합니다. 이를 구현하는 올바른 방법은 먼저 HTML 페이지를 수집해야하는 도구를 사용하는 것입니다. 따라서 코드의 정규 표현식 등을 조정할 때마다 모든 HTML 파일을 로컬에 저장해야합니다. 데이터 수집을 위해 다른 시간을 서버에 부칠 필요가 없습니다. 참고, 그것은 당신의 목적에 따라, HTML 파일을 저장하기 전에 서비스의 약관을 읽어

(2) 구문 분석 지금 당신은 당신의 휴대용 퍼스널 컴퓨터/서버에 로컬로 저장되어있는 정보를

. 이제는 HTML에서 파싱하는 방법에 대한 문제 일뿐입니다. 나는 C#과 페이지 목록이 어떻게 생겼는지에 대해 많이 모른다. 연락처 페이지가 실제로 동일한 사이트에서 온 경우 ... 동일한 HTML 디자인 (최상의 상황)을 따르는 소셜 미디어 웹 페이지를 말하면, 일부 HTML 파서 (필자는 Python에서 beautifulsoup를 사용함)를 사용하여 태그를 쉽게 찾을 수 있습니다 그 태그 안의 내용을 가져옵니다. 그런 다음 저장 한 모든 HTML에이 기능을 적용하면 작업이 완료됩니다. 모두가 다른 사이트에서 제공되는 URL이, 당신은 당신의 기능과 인간이 구문 분석 결과가 충분히 여부 좋은지 확인하고 계속 시도 조정할 필요가 있다면

.... 주소를 찾기

관련 문제