2009-03-11 2 views
6

짧은 질문 URL을 평가할 수있는 C# 코드 가지고 : 그들은 제외 될 경우누구가 robots.txt를 분석하고 그것에 대하여

사람이 robots.txt를 구문 분석 할 수있는 C# 코드를 가지고 한 다음에 대한 URL을 평가 그렇게 참조하거나 아니.

긴 질문 :

가 아직 Google에 출시 될 수있는 새로운 사이트에 대한 사이트 맵을 작성하고있다. 사이트 맵에는 사용자 모드 (기존 사이트 맵과 같은)와 '관리'모드의 두 가지 모드가 있습니다.

관리자 모드는 특정 외부 파트너의 맞춤 입력 URL 또는 URL을 포함하여 사이트의 모든 가능한 URL을 표시합니다 (예 :). Excel 스프레드 시트가 아닌 게시 ​​된 링크를 추적하고 싶습니다.

누군가 블로그 또는 어딘가에 /oprah 링크를 게시한다고 가정해야합니다. 우리는 실제로이 '미니 오프라 사이트'가 색인을 달고 싶지는 않습니다. 오프라 다 시청자가 오프라의 특별 제안을 찾을 수 있기 때문입니다.

동시에 Sitemap을 만들면서 과 같은 URL을 추가하여 robots.txt 파일에서 제외했습니다.

(그리고 이것은 실제 질문입니다.) '파일이 색인 생성되어 로봇에 표시되는지 여부를 사이트 맵에 표시하는 것이 좋지 않을 것'이라고 생각했습니다. 이것은 매우 간단합니다 - 그냥 robots.txt를 파싱하고 그것에 대한 링크를 평가하십시오.

그러나 이것은 '보너스 기능'이며 필자는 그 코드를 작성하고 작성해야 할 시간이 없다는 것을 알았습니다. (아마도 복잡한 것은 아닌 것으로 생각할 수도 있습니다.) 그래서 누구나 이미 로봇을 구문 분석 할 코드를 작성했는지 궁금합니다. .txt?

답변

8

혐오하지만, 그냥 구글 "C#을 robots.txt 파서"와 첫 번째 충돌을 클릭하십시오. 그것은 CodeProject article about a simple search engine implemented in C# called "Searcharoo"이고, 그것은 설명 클래스 Searcharoo.Indexer.RobotsTxt, 포함에 대한

  1. 확인하고 현재, 다운로드 및 사이트에 robots.txt 파일을 구문 분석하는 경우
  2. 는 인터페이스를 제공합니다 거미는 자기의
+2

oops. 아픈 인정 나는 이번에 Google 검색을 didnt한다. 그러나 아이러니하게도이 질문은 이제 'C# robots.txt'에 대한 첫 번째 일치 항목입니다. :-) 내가 필요한 것을 추출 할 수 있는지 알 수 있습니다. 덕분에 –

+0

무한 루프에 갇히지 않았 으면 좋겠다 ;-) 재미있게도 그들은 내 답변의 Google 부분을 미리보기 텍스트로 정확하게 보여줄 수도 있습니다. 나는 뉴스가 아닌 사이트에서도 Google이 매우 빨라 졌음을 깨닫지 못했다. 매우 흥미 롭다. – realMarkusSchmidt

+0

루프에 빠지나요? :) – Velcro

1

비트가 촉진 robots.txt에 규칙에 대해 각 URL을 확인,하지만 비슷한 파서가 필요하기 때문에 내가 행복했다 아무것도 찾을 수 없습니다, 나는 내 자신을 만들어 :

http://nrobots.codeplex.com/

나는 어떤 피드백