크롤링을 방지하기 위해 robots.txt를 두는 곳

크롤러가 특정 페이지를 크롤링하지 못하도록 robots.txt 파일을 사용하고 있습니다. 나는 /folder/myfolder/robots.txt에 robots.txt을 넣을 수 /folder/myfolder/에 myfolder의 모든 크롤링을 방지하고 기록 할 때 :크롤링을 방지하기 위해 robots.txt를 두는 곳

User-agent: * 
Disallow:/

또는 나는 /robots.txt에 robots.txt을 넣어 설정해야합니다 :

User-agent: * 
Disallow: /folder/myfolder/

누구가 알고?

출처

2016-12-02 user7128548

[robots.txt의 가능한 복제본으로 일부 하위 디렉터리 만 허용] (http://stackoverflow.com/questions/28495972/robots-txt-allow-all-except-few-sub-directories) – unor

방법 robots.txt 작품은 URL 문자열 떨어져, 그래서 당신은이 같은 3 디렉토리 깊은했던 프로젝트가 있다면 :

Home/ 
    /directory/ 
    - file 1 
    - file 2 
    /directory2/ 
     - file 3

이 퍼팅 :

User-agent: * 
Disallow:/

을 www.yoursite.com/(전체 사이트라고도 함)의 URL 크롤링을 방지합니다.

이런 식으로 퍼팅 :

User-agent: * 
Disallow: /directory1/

은 directory1 폴더에 존재하는 사이트/디렉토리의 크롤링 방지 할 수 있습니다. 따라서 예에서 file 1, file 2 및 directory 2은 크롤링되지 않습니다.

은 지금까지 당신이 그것을 배치 할 수있는 곳으로, 나는 항상 내 홈 디렉토리, 당신은 당신의 index.html 파일을 넣어 같은 장소에 배치.

출처

2016-12-02 19:32:19

Shouldn ' URL 경로 (예 :'http : // example.com/www.yoursite.com/directory1 /'와 같은 URL)의 일부가 아닌 한'www.yoursite.com'을 포함하지 않습니다. – unor

@unor 고정, 우리는 그것을 필드에 배치하는 경우 제거 해야하는 소프트웨어를 사용합니다. 통지 주셔서 감사! –

크롤링을 방지하기 위해 robots.txt를 두는 곳

답변

관련 문제