문자열 조작, HTML 요소 값을 쉽게 추출하는 방법?

HTML 페이지에서 요소의 값을 추출해야하는 경우가 많습니다. 이 같은 것 :문자열 조작, HTML 요소 값을 쉽게 추출하는 방법?

<!-- many html here --> 
<input type="hidden" name="id" value="ExtractMe!"> 
<!-- many html here -->

어떻게 쉽게 값을 추출 할 수 있습니까?

출처

2011-05-10 Xaqron

HTMLAgility pack을 보면이 유형의 작업이 매우 쉽고 정규식이 아닙니다.

출처

2011-05-10 14:32:47

더 빠른 솔루션이 있습니까? 현재'indexOf'를 사용합니다. – Xaqron

@Xaqron 정규식 또는 파서가 가장 빠른 두 가지 옵션입니다. XHTML을 사용하는 경우 LINQ-to-XML –

당신이 당신의 C# 응용 프로그램 내에서 HTML을 구문 분석해야 할 경우 당신이 XML로 이것을 구문 분석 할 수 아마도 최고야 값을 따려면 여기 http://htmlagilitypack.codeplex.com/

출처

2011-05-10 14:33:24 DanielB

에서 HTMLAgilityPack을 사용하는 것이 좋습니다. 표준 XML 또는 LINQ를 선택할 수 있습니다.

일부 예로는 here 또는 here입니다.

출처

2011-05-10 14:33:32 acron

을 사용해 볼 수 있습니다. 그러나 대부분의 경우 HTML은 유효한 XML 문서가 아니므로 실패합니다. – DanielB

왜 정규 표현식을 사용하지 않습니까? 이 MSDN Regular Expression Documentation, 거기에 Extracting a Single Match or the First Match 섹션을 찾을 수 있습니다.

출처

2011-05-10 14:37:07 PedroC88

정규 표현식은 CPU를 사용하고 구현하기가 쉽지 않습니다. – Xaqron

"정규식은 CPU를 먹습니다"- 그래서이 시간을 100,000 번 실행 하시겠습니까? 성능이 중요한 요소입니까? –

.NET에서 Regex를 구현하는 것은 매우 쉽습니다. 클래스가 있습니다. 올바른 패턴 표현을 작성하는 것이 더 까다 롭지 만이를 도와주는 도구 (및 stackoverflow)가 있습니다. 성능 부분에 관해서는 @Lee Gunn이 올바른 질문을 던졌습니다. – PedroC88

문자열 조작, HTML 요소 값을 쉽게 추출하는 방법?

답변

관련 문제