페이지의 검색 결과에서 지능적으로 데이터를 구문 분석하는 방법은 무엇입니까?웹 사이트 데이터를 파싱하고 사용하는 "스마트"방법?
예를 들어 많은 서점 제공 업체의 웹 사이트 검색 결과를 구문 분석하여 온라인 서적을 검색하는 웹 서비스를 만들고 싶습니다. 페이지의 원시 HTML 데이터를 가져올 수 있고 웹 서비스에 대한 데이터를 작동시키는 일부 정규식을 수행 할 수 있지만 웹 사이트 중 하나에서 페이지의 서식이 변경되면 코드가 손상됩니다!
RSS는 참으로 훌륭한 옵션이지만 많은 사이트에는 XML/JSON 기반 검색이 없습니다.
페이지에 정보를 자동으로 유포하는 데 유용한 키트가 있습니까? 미친 생각이 구문 분석 할 고정 HTML 구조없이 ... 퍼지 AI 모듈은 검색 결과 페이지에 패턴을 인식하고 그에 따라 결과를 분석하도록
언어와 관련하여 필자는 PHP로 개선되었지만 필요한 경우 asp.net을 사용할 의향이 있습니다. 모든 답변 주셔서 감사합니다! – bluebit
좋은 정규 표현식은 놀랍게도 유연하고 사용에 관대 할 수 있습니다. 하나의 좋은 기법은 데이터 항목 앞의 * 영역을 일치시킨 다음 게으른 한정 기호가있는 캡처 그룹에 데이터를 넣은 다음 데이터 뒤의 영역 *을 일치시키는 것입니다. 이전/이후 일치를 유연한 방식으로 정의하면 서식의 변경 사항을 매우 잘 처리 할 수 있습니다. www.regular-expressions.info는이 기술 및 기타 기술에 대한 좋은 설명을 제공합니다. – BobMcGee