2013-05-04 10 views
0

웹 페이지의 특정 부분을 추출하려고하는데 문제가 있습니다. 나는 웹 구문 분석에 익숙하지 않으므로 나는 아무것도 모르고 매우 상세한 답변을 유지한다고 가정하십시오.HtmlAgilityPack html 블록에서 추가 텍스트 가져 오기

내가

var browser = document.DocumentNode.SelectNodes("//*[@id=\"playerStats\"]"); 
if (browser != null) { 
    foreach(var b in browser) 
    output.AppendLine(b.InnerHtml); 
} else { 
    output.AppendLine(("Oops! I'm broken!")); 
} 

그러나 코드를 사용하여

HP: 
MP: 
Magic Resist 
Physical Defence 
Strike Resist 
Strike fortitude 
Main Hand Attack 
Main Hand Accuracy 
Main Hand Critical 
Off Hand Attack 
Off Hand Accuracy 
Off Hand Critical 
Attack Speed 
Magic Boost 
Magic Accuracy 
Crit Spell 
Casting Speed 
Block 
Evasion 
Movement Speed 

의 출력을 제공 HTML

<div id="playerStats"> 
    <div id="hp"><span class="title">HP:</span>"12213"</div> 
    <div id="mp"><span class="title">MP:</span></div> 
    <div id="magicResist"><span class="title">Magic Resist</span>"4618"</div> 
    <div id="physicalDefend"><span class="title">Physical Defence</span>"1725"</div> 
    <div id="phyCriticalReduceRate"><span class="title">Strike Resist</span>"1518"</div> 
    <div id="phyCriticalDamageReduce"><span class="title">Strike fortitude</span>"392"</div> 
    <div id="physicalRight"><span class="title">Main Hand Attack</span>"201"</div> 
    <div id="accuracyRight"><span class="title">Main Hand Accuracy</span>"201"</div> 
    <div id="criticalRight"><span class="title">Main Hand Critical</span>"201"</div> 
    <div id="physicalLeft"><span class="title">Off Hand Attack</span>"201"</div> 
    <div id="accuracyLeft"><span class="title">Off Hand Accuracy</span>"201"</div> 
    <div id="criticalLeft"><span class="title">Off Hand Critical</span>"201"</div> 
    <div id="attackSpeed"><span class="title">Attack Speed</span>"201"</div> 
    <div id="magicalBoost"><span class="title">Magic Boost</span>"201"</div> 
    <div id="magicalAccuracy"><span class="title">Magic Accuracy</span>"201"</div> 
    <div id="magicalCriticalRight"><span class="title">Crit Spell</span>"201"</div> 
    <div id="castingTimeRatio"><span class="title">Casting Speed</span>"201"</div> 
    <div id="block"><span class="title">Block</span>"201"</div> 
    <div id="dodge"><span class="title">Evasion</span>"201"</div> 
</div> 

의이 부분을 가지고, 또한 수를 "포함 할 것 12213 "또는 그 사이의 텍스트

</span>"xxx"</div> 

후는 말할 수 "HP를"

가 어떻게이 텍스트뿐만 아니라 이미 구현 한 코드를 사용하여 검색 할 수 있습니다?

답변

0

당신은 (콘솔 응용 프로그램 샘플에서) 이런 식으로 그것을 할 수 :

HtmlDocument doc = new HtmlDocument(); 
doc.Load(MyTestFile); 

foreach(var node in doc.DocumentNode.SelectNodes("//div[@id='playerStats']/div/span")) 
{ 
    Console.WriteLine(node.InnerText + " " + (node.NextSibling != null ? node.NextSibling.InnerText : null)); 
} 

로 nextSibling은 같은 부모를 가진 주어진 노드 후 다음 노드입니다. 현재 노드가 상위 노드의 마지막 하위 노드이면 존재하지 않을 수 있습니다.

참고 초기 선택을 위해 명시 적으로 DIV에 대한 요소 유형을 명시 적으로 설정 했으므로 성능 측면에서 우수합니다. (*는 모든 노드와 일치합니다).

+0

감사합니다! 이 코드 섹션은 위의 HTML 코드와 완벽하게 작동합니다. 그러나, 내가 varside document = web.Load (rawHtmlAddressString)를 사용하여 webside에서 html 코드를 가져올 때마다; 그것은 내가받는 것을 시도하는 수치 값을 얻지 못합니다. 위에 설명 된 출력 만. 그러나 페이지에서 F-12 기능을 사용하여 Chrome을 통해 html 코드를 보면 숫자 값이 표시됩니다. 어떤 아이디어? [이 질문에 대한 답변] (http://stackoverflow.com/questions/16390780/htmlagilitypack-isnt-getting-all-the-html-code-text-from-a-web-page) – Tanner

+0

이것은입니다. 왜냐하면 자바 스크립트에 의해 동적으로 수정 되었기 때문에 브라우저는 와이어에서 읽은 것과 일치하지 않는 메모리 내 DOM 표현을 작성하기 때문입니다. Html Agility Pack은 HTTP가 제공하는 것만 얻습니다. 브라우저가 아닙니다. 따라서 XPath 또는 HTML 등을 결정하기 위해 브라우저에 내장 된 스마트 개발자 도구 (inspect, F12 등)를 사용할 수 없습니다. –

관련 문제