robots.txt

0열

1답변

에 오신 것을 환영합니다, 어떻게 내가 할 수없는 페이지 내가 Disallow: /something,*.php 그러나 말하려고이 http://mysite.net/something,category1.php http://mysite.net/something,category2.php (...) http://mysite.net/something,categ

1열

1답변

robots.txt 파일 허용 및 금지

특수 폴더 및 파일을 제외하고 내 사이트의 모든 파일과 폴더에 SE 봇이 표시되지 않도록하고 싶습니다. robots.txt 파일에서이 줄을 사용할 수 있습니까? User-agent: * Disallow:/ Allow: /thatfolder 맞습니까?

2열

2답변

색인 생성되지 않은 파일 (?)이 여전히 Google에 있습니다.

내 페이지 /admin/login.asp가 "inurl : admin/login.asp"검색어와 함께 Google에 있으면 어떻게 표시 될 수 있습니까? "site : www.domain.xx"쿼리? 내 robots.txt에 코드의 라인을했습니다 : User-agent: * Disallow: /admin/ 그리고이 페이지의 HTML 코드 : <meta

-1열

3답변

Google에서 색인 생성 한 페이지에 대한 검색 도움말

Google의 검색 엔진 최적화를 위해 노력하고 있으며 최근에 "사이트 : www.joemajewski.com"쿼리를 수행 할 때 전혀 색인을 생성해서는 안됩니다. 비록 그것이 shouldn, 난 내 자신의 CMS를 만들어 http://www.joemajewski.com/wow/profile.php?id=3 , 이것은 단순히 내가 구글에 의해 색인이 발견

3열

4답변

sitecrawlers에게 특정 페이지를 방문하도록 알릴 수 있습니까?

나는 문서 데이터베이스 주위를 돌고있는이 Drupal 웹 사이트를 가지고있다. 의도적으로 사이트를 검색하여 이러한 문서 만 찾을 수 있습니다. 그러나 Googlebot 및 기타 크롤러가 모든 결과를 색인화하기를 원하므로 모든 문서를 나열하는 페이지를 만든 다음 로봇이 페이지를 방문하여 모든 문서를 색인화하도록 지시하면 어떻게됩니까? 이 방법이 가능한가요 아

1열

1답변

콘텐츠가없는 사이트의 모든 링크를 수집하려면 어떻게해야합니까?

wget과 같은 내용으로 모든 콘텐츠를 다운로드하지 않고 모든 도메인의 URL을 (동일한 도메인에) 보내고 싶습니다. wget이 다운로드 할 링크를 나열하도록 지시하는 방법이 있습니까? 누군가가 더 나은 해결책을 내놓을 수있는 경우이를 위해 내가 사용하고있는 것에 대한 약간의 배경 지식 : p [4-9]로 끝나는 모든 파일을 제외하는 robots.txt 파

0열

2답변

robots.txt 파일 dissallow 옵션

로봇이 /new으로 끝나는 URL에 액세스하지 못하도록하고 싶습니다. Disallow: /*/new 이 /new에 종료 모든 URL에 대한 액세스를 허용하는 데 사용할 올바른 패턴 다음과 같이 내 robots.txt 파일을 수정하고있다?

7열

3답변

robots.txt 파서 java

java에서 robots.txt를 구문 분석하는 방법을 알고 싶습니다. 이미 코드가 있습니까?

1열

2답변

다중 언어 웹 사이트의 가시성을 극대화하는 방법은 무엇입니까?

처음에는 프랑스어와 영어 등 여러 언어로 제공되는 다가오는 웹 응용 프로그램의 가시성을 극대화하는 방법을 이해해야한다고 들었습니다. Google 로봇과 같은 로봇이 여러 언어로 제공되는 사이트를 긁어 모으는 방식을 이해하는 데 관심이 있습니다. 이 웹 사이트의 URL에서 언어를 지정해야합니다 : 나는 로봇 및 인덱싱 엔진의 동작에 관한 몇 가지 질문이 있습

1열

1답변

자바 웹 사이트 스크랩

내가하려는 것은 URL 목록을 가져 와서 각 URL의 콘텐츠를 다운로드하는 것입니다 (색인 생성을 위해). 가장 큰 문제는 단순히 로그인 페이지로 리디렉션되는 페이스 북 이벤트와 같은 링크가 발생하면 해당 URL을 감지하고 건너 뛸 수 있어야한다는 것입니다. 이 목적을 위해 robots.txt 파일이있는 것 같습니다. 나는 heritrix를 들여다 보았다.