html 및 body 태그가 소문자이거나 존재하지 않을 수도 있다는 점을 감안하여 Regex를 사용하여 html 문서에서 본문을 추출하는 방법은 무엇입니까? ?Regex Extract HTML Body
답변
정규식을 사용하지 마십시오. Html Agility Pack과 같은 것을 사용하십시오.
이 는 DOM을 읽기/쓰기를 구축하고 일반 XPATH 또는 XSLT를 지원하는 민첩한 HTML 파서는 (당신이 실제로 XPATH도 그것을 사용하는 XSLT를 이해하지 않아도, 걱정하지 마십시오. ..). "웹에서"HTML 파일을 구문 분석 할 수있는 .NET 코드 라이브러리입니다. 구문 분석기는 "실제 세계"형식의 HTML에 매우 관대합니다. 객체 모델은 System.Xml을 제안하지만 HTML 문서 (또는 스트림)에 대해서는 매우 유사합니다.
그러면 XPATH를 사용하여 body
을 추출 할 수 있습니다.
동의합니다. 나는 이것을 사용했고 빠르고 깔끔하고 깨끗하다고 말해야 만합니다. –
이 아주 가까이 당신을 얻을해야합니다
(?is)<body(?:\s[^>]*)>(.*?)(?:</\s*body\s*>|</\s*html\s*>|$)
세부적인 해결책을 제공해주십시오. – ShaileshDev
어떻게 이런 일에 대해?
<body></body>
태그 사이의 모든 문자 (RegexOptions.IgnoreCase
로 인해 대소 문자를 구별하지 않음)를 theBody
그룹으로 캡처합니다.
RegexOptions.Singleline
을 사용하면 여러 줄의 HTML을 단일 문자열로 처리 할 수 있습니다.
HTML에 <body></body>
태그가없는 경우 일치 항목의 Success
속성은 false입니다.
string html;
// Populate the html string here
RegexOptions options = RegexOptions.IgnoreCase | RegexOptions.Singleline;
Regex regx = new Regex("<body>(?<theBody>.*)</body>", options);
Match match = regx.Match(html);
if (match.Success) {
string theBody = match.Groups["theBody"].Value;
}
- 1. jquery anchor from html extract
- 2. Perl의 Grep 및 Extract 데이터
- 3. php clean html regex
- 4. sqlite regex html 대체
- 5. RegEx for HTML 바꾸기
- 6. Regex BBCode to HTML
- 7. PHP Regex HTML Assist
- 8. Regex HTML 추출 C#
- 9. Extract Font Glyphs
- 10. Regex
- 11. Zend disableLayout() 출력에 html & body 태그를 남깁니다.
- 12. doctype은 html/body/canvas의 너비와 높이에 영향을줍니다.
- 13. HTML, body 및 div에 문제가 있습니다
- 14. HTML body 요소에 CSS를 적용하는 방법은 무엇입니까?
- 15. html 및 body 태그없이 grails에서 페이지 렌더링
- 16. 자바 스크립트 : $ ('body : contains ("")') with html
- 17. Regex match HTML HTML wrapped around
- 18. Regex - HTML 코드의 속성 일치
- 19. SQLite3의 TIMESTAMP 유형에 대한 EXTRACT
- 20. Extract Links from Facebook 활동 피드
- 21. javascript/jquery extract 입력 태그가 포함 된 HTML 테이블의 HTML 텍스트
- 22. REGEX
- 23. Javascript body OnClick
- 24. PHP Regex : HTML 태그 그룹간에 정보를 얻으시겠습니까?
- 25. regex replace with <html> tags
- 26. Regex : "style"속성이없는 HTML 태그를 일치 시키려면
- 27. SQL 서버에서 regex HTML 태그를 바꾸는 방법?
- 28. HTML 단순 텍스트를위한 Regex 패턴 만드는 법?
- 29. Extract Generic types from extended Generic
- 30. --extract-all을 사용하여 xgettextt를 사용하여 복수형을 처리하십시오.
중복 된 http://stackoverflow.com/questions/356340/regular-expression-to-extract-html-body-content? – M4N