2010-06-24 4 views
2

유효하지 않은 XML이 포함 된 RSS 및 Atom 피드를 구문 분석 할 수 있기를 원합니다. 내가 직면 한 오류를 수정하고 싶습니다. 은 &gt과 같은 간단한 것들을 포함합니다. ;은 입니다. 누락 된 마감 태그 및 누락 태그는 누락되었습니다. 잘못된 주문에 나타납니다.Perl로 깨진 RSS 피드 구문 분석

이론상으로 이 잘못된 형식의 XML 문서를 전혀 구문 분석하지 못하도록하는 지에 대한 질문을 무시하고 싶습니다. 하나는 내가하고 싶은 일에 오히려 가까워 보이는 "전문 용어" 은 "태그 수프"입니다. 위에서 설명한 과 같은 간단한 오류를 허용하거나 수정할 수있는 이와 같은 파서를 만들기 위해 기존 CPAN 모듈을 사용해야합니까?

답변

4

recover 깃발을 LibXML (정말로 사용해야하는 경우) 또는 XML-Liberal (오래된 쓰레기를 파서에 실제로 실기를 원한다면).

잘 작성되지 않은 문서를 파싱하는 것이 의미가 있는지 여부에 대한 질문은 무시하고 싶지만 무시하면 문제가 사라지지 않습니다. 대부분의 RSS 도구는 잘 형식이 아닌 XML 입력을 완전히 거부합니다. 당신은 일반적으로 RSS 디버거처럼 당신의 도구가 이상한 것이 아닌 한 일반적으로 따라 와야합니다.

"태그 스프"는 HTML 구문 분석과 관련된 용어입니다. XML (그리고 RSS와 Atom)의 핵심 아이디어 중 하나는 그러한 것이 없다는 것입니다.

관련 문제