2010-08-09 4 views
2

처리해야하는 URL 목록이 있으며 그 결과는 해당 목록의 RSS 피드 URL이어야합니다.주어진 URL이 RSS 피드 URL인지 확인하려면

주어진 링크가 RSS 피드 URL인지 여부를 식별하는 방법.

Java로 프로그램을 빌드해야하며, 지식이 필요하면 자바 초보자입니다.

동일하게 안내해 주시기 바랍니다. 미리 감사드립니다.

+0

누구나 위의 질문에 도움주세요 .. 긴급 솔루션이 필요합니다. ( – LGAP

답변

3

내 머리 위로 오프 당신이 시도 할 수있는 몇 가지가 있습니다 :

  1. 참조 무엇 Content-Type 지정된 URL의 서버로 돌아갑니다. 그러나 이것은 명확하지 않을 수 있으며 서버가 반드시 올바른 헤더를 반환하지 않을 수도 있습니다.
  2. URL의 내용을 RSS로 구문 분석하여 성공했는지 확인하십시오. 이는 주어진 URL이 RSS 피드라는 유일한 확실한 증거 일 수 있습니다.
1

URL 만 지정하면 100 % 확신 할 수 없습니다. RSS 파일은 일반적으로 .xml이지만 해당 접미사가 필요하다는 (알 수있는 한) 것은 아닙니다. 방금 ".xml"을 기반으로 분류했거나 분류하지 않은 경우 많은 RSS 파일을 RSS로 분류하고 일부는 RSS가 아닌 RSS 파일로 분류하여 많은 실수를 범할 수 있습니다.

실제로 확실하게하려면 지정된 URL에서 파일을 실제로 가져와 파싱해야합니다. 스스로 파싱을하는 것이 아마도 악몽이기 때문에 아마도 이것을하기위한 라이브러리를 찾아야 할 것입니다. 이 라이브러리는 적당 해 보입니다. http://www.davidpashley.com/projects/eddie.html 각 URL의 내용을로드하여 라이브러리에 넘겨주고 라이브러리가 성공적으로 구문 분석하면이를 RSS 또는 Atom 피드로 표시 할 수 있습니다. 잘못된 제외 어가있을 수 있지만 URL만으로 카테고리를 분류하려고 시도하는 것보다 빈번하지는 않습니다.

모든 관심사가 RSS이고 성능이 문제인 경우 (즉, 각 파일에 대해 SAX 파서를 부팅하지 않으려는 경우) RSS 사양 (http://cyber.law.harvard.edu/rss/rss.html)을 읽고 간단한 문자열 RSS 파일처럼 광범위하게 보이는 파일을 검색합니다. 가양 성 (false positive)과 가양 성 (false negative)이 많을 수 있지만 빠를 것입니다. 그것은 당신이 이것에 얼마나 많은 시간을 할애하고 얼마나 필요하다고 확신하는지에 달려 있습니다. 그러나 정확성을 유지하려면 각 파일을 다운로드하여 검사해야합니다.

1

RSS 문서는 XML 파일입니다. XML 파일의 형식은 RSS Specification에 있습니다. Java의 XML 파서를 사용하여 RSS 피드를 읽고 작성할 수 있습니다.
여기에 도움이 될 수있는 자습서 : RSS feeds with Java.