꽤 복잡한 HTML에서 텍스트를 가져와야한다는 요구 사항이 있습니다. 페이지의 첫 번째 목록에서 세 번째 목록 항목이 필요하다고 가정 해 보겠습니다. 리의 태그를 닫을 수도 있고 아닐 수도 있습니다. 혼합 된 경우이거나 클래스가있을 수 있습니다.지저분한 HTML에서 요소를 추출하는 데 사용할 수있는 클래스가 있습니까?
콘솔 응용 프로그램에서 클래스 (DOMDocument ???)를 사용할 수 있는지 궁금합니다. HTML을 DOM에로드하면 최소한 위생적으로 약간의 위생을 일으킨다. 그런 다음 거기에서 파싱한다.
이 이미 해결해야 뭔가 것 같아,하지만 난 http://www.vsj.co.uk/articles/display.asp?id=389
이 좋은 방법 인 경우에 어떤 생각과 올바른 클래스가 될 것 조사하기 위해이 빈티지 정규식 솔루션을 제외하고도 관련 아무것도 발견되지했습니다 고맙습니다.
체크 아웃 http://stackoverflow.com/questions/653357/html-parsing-libraries-for-net - 'HTMLAgilityPack'을 사용할 때의 대답은 제가 아는 가장 쉽고 간단한 접근 방법입니다. – InSane