2013-03-20 4 views
0

인기있는 독일 뉴스 사이트 (taz.de)의 특정 RSS 피드를 구문 분석하려고합니다. 불행하게도, 그들의 설명 태그는 어떻게이에 있다고 할 것이다 사진, 링크 등RaptureXML 특정 RSS 피드 구문 분석 문제

<description> 
    <![CDATA[<a href="http://www.taz.de/10-Jahre-nach-dem-Irakkrieg/!113046/"><img align="left" style="margin-right:5px;" src="/uploads/images/152x76/18032013_Bush_Irakkrieg_rtr.jpg" border="0" width="152" height="76" /></a>Das Land ist von einem funktionierenden Rechtsstaat weit entfernt. Zehn Jahre nach dem Irakkrieg zeigt sich eine niederschmetternde Bilanz. <a href="http://www.taz.de/10-Jahre-nach-dem-Irakkrieg/!113046/">mehr...</a>]]> 
</description> 

내가 관심이있는 유일한 텍스트 Das Land ist von einem funktionierenden Rechtsstaat weit entfernt. Zehn Jahre nach dem Irakkrieg zeigt sich eine niederschmetternde Bilanz. 인을 포함하여 일반 텍스트 아무것도하지만의 혼합물을뿐만 아니라 포함 않는다 효율적인 방법 (끔찍한 문자열 연산없이)? 애트리뷰트 이름이 없기 때문에 내가 망쳤다 고 생각하니? RaptureXML 사용하고 있지만이 문제에 대한 더 나은 라이브러리가 있으면 xml 파서를 전환합니다.

답변

0

나는 그것보다 더 나쁜 두려워하십시오 "CDATA"섹션 설명 (모듈 주위의 공백은) 당신의 조각 즉, 리터럴 문자열

<a href="http://www.taz.de/10-Jahre-nach-dem-Irakkrieg/!113046/"><img align="left" style="margin-right:5px;" src="/uploads/images/152x76/18032013_Bush_Irakkrieg_rtr.jpg" border="0" width="152" height="76" /></a>Das Land ist von einem funktionierenden Rechtsstaat weit entfernt. Zehn Jahre nach dem Irakkrieg zeigt sich eine niederschmetternde Bilanz. <a href="http://www.taz.de/10-Jahre-nach-dem-Irakkrieg/!113046/">mehr...</a> 

<description> 
    &lt;a href="http://www.taz.de/10-Jahre-nach-dem-Irakkrieg/!113046/"&gt;&lt;img align="left" style="margin-right:5px;" src="/uploads/images/152x76/18032013_Bush_Irakkrieg_rtr.jpg" border="0" width="152" height="76" /&gt;&lt;/a&gt;Das Land ist von einem funktionierenden Rechtsstaat weit entfernt. Zehn Jahre nach dem Irakkrieg zeigt sich eine niederschmetternde Bilanz. &lt;a href="http://www.taz.de/10-Jahre-nach-dem-Irakkrieg/!113046/"&gt;mehr...&lt;/a&gt; 
</description> 
에 해당되는 것을 의미

일치하는 XML 파서 에게 당신이 찾고있는 텍스트를 제공 할 수 없습니다. 다음 두 가지 옵션이 있습니다.

  • <foo>...</foo>, 으로 XML 구문 분석기를 통해 전달하고 루트 요소의 모든 텍스트 하위를 가져옵니다.
  • 문자열을 <html><title></title><body>...</body></html>과 같이 감싸고 HTML 파서 (또는 임의의 태그 수프 du jour 파서)를 통해 전달하고 본문 요소의 모든 텍스트 하위를 가져옵니다.

설명은 ]]> 포함 된 경우 taz.de 나누기 궁금 ...