2009-06-16 7 views
29

나는 심각한 질문이 있습니다. 웹 사이트에서 robots.txt 파일의 존재를 무시하는 것이 윤리적입니까? 이 내가 마음에있어 몇 가지 고려 사항은 다음과 같습니다robots.txt 윤리

  1. 누군가가 그들이 어떤 방문을 기대하고 웹 사이트를 박았합니다. 물론, 웹 크롤러는 사이트를 지원할 수있는 광고를 클릭하지 않고 대역폭을 사용하고 있지만 사이트 소유자는 자신의 사이트를 웹에 올려 놓고 있습니다. 그렇다면 결코 봇이 방문하지 않을 것으로 예상하는 것이 얼마나 합리적입니까?

  2. 일부 사이트는 robots.txt를 사용하여 Google이나 가격을 확보 할 수있는 다른 유틸리티에 의해 사이트가 크롤링되지 않도록하기 때문에 분명히 가격 비교를 할 수 있습니다. 사이트에 사설 검색 엔진이있어 사람들이 사이트를 검색 할 수있게하려는 것입니다. 분명히 사람들은 다른 공급 업체와 정보를 쉽게 비교할 수 없기를 바랄뿐입니다.

내가 말했듯이 나는 논쟁의 여지가 없다. Robots.txt 파일의 존재를 무시하는 것이 윤리적으로 허용되는 경우를 생각해 본 사람이 있는지 알고 싶습니다. 사람들 (또는 기업)이 ​​자신의 웹 사이트를 올리기 위해 돈을 지불하고 있기 때문에 주로 로봇을 무시하는 것이 허용 될 수 없다고 생각할 수는 없습니다. 그래야 Google 직원이 세계의 Google/Yahoos/Other SE에게 말할 수 있어야합니다. 그들의 색인에 있고 싶지 않다.

이 토론을 배경으로하면 가격 비교 웹 사이트를 만들고 싶습니다. 주요 공급 업체 중 하나에는 기본적으로 누구나 가격을 책정하지 못하도록하는 robots.txt가 있습니다. 나는 그들의 정보를 얻을 수 있기를 원하지만, 내가 말했듯이, 나는 단순히 사이트 소유자의 희망을 무시하는 것을 정당화 할 수 없다.

저는 여기서 매우 날카로운 토론을 보았습니다. 그래서 저는 Stack Overflow를 따르는 개발자들의 의견을 듣고 싶습니다.

그런데이 주제에 대한 논의는 Hacker News question에 있습니다.하지만 주로이 문제의 법적 측면에 초점을 맞추는 것처럼 보입니다.

+0

@Andrei : 제가 투표를했기 때문에 그것이 었습니다. 당신이 "나쁜 매너를 나타내는 질문"또는 "나쁜 매너를 나타내는 질문"을 유효한 것으로 포함시키지 않는 한 그것은 유효한 질문이 아닙니다. –

+4

@ John Saunders - Robots.txt를 무시하는 것이 괜찮을지는 상상할 수 없습니다. 그러나, 내가 고려하지 않은 상황이있을 수 있음을 알고 있습니다. 나는 열린 마음을 유지하려고 정말로 노력하고 있습니다. –

+0

@Onorio : 그렇다면 좋은 이유를 들어 봅시다. 좋은 이유가 없다면 나는 아무 것도 없다고 가정하고있다. –

답변

41

인수 :

  1. robots.txt 파일은 당신이 그것을 알고 특히 이후, 묵시적 라이선스입니다. 따라서 사이트를 계속 스크래핑하면 승인되지 않은 액세스 (예 : 해킹)로 간주 될 수 있습니다. 이런 주장은 최근에 다른 합법적 인 경우에 (robots.txt와 직접적으로 관련이 없지만 다른 "수동 제어"와 관련하여) 이루어졌습니다.
  2. 그래도 가격은 DMCA를 포함하여 저작권법을 위반하지 않습니다. 사실적 정보는 포함하지 않으며 독창적 인 정보 만 포함합니다.
  3. 윤리적으로, 당신은 당신의 사이트에서 오는 사람들에 의한 미끼/스위치의 혐의에 대해 걱정할 필요없이 공급 업체가 가격을 변경할 수 있어야하기 때문에 가격을 매겨서는 안됩니다.
  4. 당신은 높은 길을 갔다가 그 사이트를 설명하고 그들이 당신의 업체 목록에 포함시키고 싶다고 말했습니까? 어쩌면 그들은 아이디어를 좋아할 것이고, 당신이 소비하기 쉽고 자원을 덜 소비 할 수있는 방식으로 실제로 데이터를 노출 할 것입니다.
  5. robots.txt에 대해 직접 작성된 법률은 없으므로 일반적으로 netiquette이 준수됩니다. "나쁜 놈들"중 한 명이되지 마십시오.
  6. URL 링크를 사용하여 장바구니에 물건을 추가하는 것과 같은 "작업"을 수행하고 로봇이 대량의 버려진 장바구니를 데이터베이스에 남겨두기 때문에 로봇을 필터링하는 사람들이 있습니다.
  7. 일부 사람들은 벤더와의 계약에 따라 공개적으로 광고 할 수없는 독점적 인 가격 때문에 로봇을 필터링합니다. 당신은 당신의 위치에 그 가격을 드러내서 나쁜 위치에 그들을 둘 수 있었다.
  8. 이 경제 상황에서 회사가 광고를하기 위해 가능한 모든 것을하고 싶지 않다면, 자신이 포함하지 않은 것이 자신의 잘못입니다.
+1

4 번과 8 번을 특별히 고려할 것입니다. 어떤 종류의 회사가 그들이 제공하는 것을 전파하고 싶지 않습니까? – Marcel

+0

# 2 : 많은 곳에서 데이터베이스 권한이 있습니다. 유럽 ​​국가에서 웹 스크 레이 핑을위한 최소한 하나의 판결을 기억할 수 있습니다. – Marin

2

"아니오"는 "아니오"를 의미합니다.

+0

서비스 약관에 기재된 내용은 모두 사실입니까? –

+0

어쩌면 예, 아닐 수도 있지만 사실이라고 가정하고 묻습니다. 그렇지 않으면, 당신은 거짓말을하고 있다고 가정하고 있습니다. 나는 개인적으로 거짓말 쟁이라고 생각하는 것에 화를 냈습니다. 다른 사람들은 기분을 상하게하는 대신에 변호사를 불러 줄 것입니다. 내 제안 : 좋을 것. –

25

robots.txt의 다른 용도는 웹 스파이더를 스스로 보호하는 것입니다. 웹 스파이더가 링크의 무한히 깊은 숲에 머무르는 것은 상대적으로 쉽습니다. 제대로 구축 된 robots.txt 파일은 거미에게 "여기에 갈 필요가 없습니다"라고 알려줍니다.

+4

좋은 지적입니다. 예를 들어, Blogger는 크롤러가 모두 이미 발견되었으므로 라벨 검색을 무시하도록 알려줍니다. – cletus

+7

그래서 역시 stackoverflow : http://stackoverflow.com/robots.txt –

+0

그렉 고마워요. 나는 로봇을 무시할 계획이 없다 ..txt - 내가 생각하지 않은 다른 것들이 있는지 알고 싶었다. –

-4

사람들이 공용 액세스를 허용하는 경우 사람들은 제한을 두지 마십시오. 귀하의 사이트에 robots.txt 파일을 추가하는 것은 잔디밭에 "나를 보지 마세요"라는 표지판을 두는 것과 같습니다.

+3

당신의 비유는 불완전합니다. 잔디밭은 특정 공간을 가지고 있습니다. 모든 잔디를 보았을 때를 알 수 있습니다. 웹 사이트에서는 그렇지 않습니다. 당신의 유추가 너무 멀리 떨어져 있다는 사실은 단순히 "육체적 인 범위"라는 측면에서 볼 때, 당신이이 질문에 대한 당신의 전체 접근법을 재검토하고 싶어 할지도 모른다는 것을 나에게 암시합니다. –

+0

제 생각에는 robots.txt를 사용하여 무언가를 숨기려고하면 "집에 옷장에 안전 금고를 여는 데 조합 22-18-76을 사용하지 마십시오"라고 쓰여있는 집 밖에 서 기호를 붙이는 것과 같습니다. – UnkwnTech

+1

이것은 가짜입니다 비교. 누군가의 잔디를 보면서 그들의 자원을 사용하지 않습니다. 웹 사이트를 탐색하거나 크롤링하는 경우 제한 사항을 적용하는 것이 합리적입니다. –

1

좁은 질문에 답하기 위해 가격 비교 웹 사이트의 경우 가격을 실시간으로 파악하는 것이 가장 좋으며 사전에 데이터베이스를 폐기하는 것이 가장 좋습니다. 그것이 상상하기 어려워.

1

우리가 로봇에게 불만없이 웹을 파고 들도록 허용하는 한 가지 이유는 우리가 원하는 경우 로봇을 막을 수있는 방법이 있다는 것입니다. 양쪽을 보호합니다.

Cuil의 로봇이 어떤 경우에 DoS 공격처럼 행동하고 일부 소규모 사이트의 대역폭 허용량을 사용하는 것처럼 보이면 고뇌를 당했을 때 소동이 있었다는 것을 기억하십니까?

너무 많은 사람들이 robots.txt를 위반하면 우리는 더 나빠질 수 있습니다.

+3

실제로 여기가 robots.txt를 무시하면 우리를이 끕니다. http://www.theonion.com/content/video/in_the_know_are_we_giving_the –

-2

나는 여기에 약간의 무지를 보여주고 있지만, 나는 항상 봇 (bot)이 검색 엔진에 의해서만 발송 된 것이라고 생각했다. 구글이나 야후처럼.

인터넷에서 콘텐츠를 검색하는 응용 프로그램을 작성한 경우 robots.txt가 차단하려고하는 검색 엔진 봇을 고려하지 않았습니다.

하지만 해당 사이트의 웹 마스터 할 때까지 그것을 할 수 있기 때문에 이것은 단지, 선택적 무지 될 수있다이 날 연락을 중지하라고 :)

+4

robots.txt라고하며 search-engines.txt가 아닙니다. 모든 자동화 된 웹 크롤러가 인간에 의해 대화식으로 작동하지 않는 모든 것입니다. 게다가, 그것은 인터넷에서 내용을 검색하는 것이 검색 엔진이 아닌 것을 생각하는 재미있는 마음의 상태입니다. –

+0

내가 말했듯이, "선택적 무지". 그래, 네가하는 말에 동의한다. – MattK311

+2

봇은 웹 사이트를 상대로 정보를 검색하는 자동화 된 긁는 도구 일 것입니다. IMHO, 소프트웨어가 개인이나 회사에 의해 작성되었는지는 중요하지 않습니다. –

0

짧은 답변 : 좁은 문제에 번호

: 판매자가 가격이 비공개라고 말하면 나는 그것을 존중해야한다고 생각합니다. 나는 그들에게 연락하여 당신과 같은 가격 비교 엔진이 그들을 포함 시키길 원하지 않느냐, 아니면 "침입 금지"표시가 기술적 인 이유인지를 묻는다. 후자의 경우, 그들은 아마도 당신에게 대안을 제공 할 것입니다. 전자가 나쁘다 고 말하면, 그들은 포함되지 않고, 사업을 잃고, 문제가된다.

개인적으로, 나는 개인적으로 나를 농구로 뛰어 다니게하여 회사의 제품 가격을 알 수있는 회사에 화를 내게된다. 전화를 걸고 영업 사원과 이야기를 나눠주는 장소는 나에게 하드 판매 피치를 줄 수있다. , 또는 더 나쁜 것은, 저에게 영업 사원이 전화해서 나를 괴롭힐 수 있도록 내 전화 번호를 알려주도록하십시오. 나는 그들이 가격을 말하는 것을 두려워하는 경우 아마도 그것이 너무 높다는 것을 의미한다고 생각합니다.

일반적으로 robots.txt 파일은 "침입 금지"기호와 같습니다.소유주가 누구인지 밝히는 것은 소유자의 권리입니다. 그들의 사유가 멍청하다고 생각하면 정중하게 사인을 받겠다 고 제안 할 수 있습니다. 그러나 당신은 그들의 소원을 무시할 권리가 없습니다. 어떤 사람이 무단 침입 금지 표지를 그의 마당에두고, "이봐, 나는 단지 짧은 지름길을 잡고 싶다. 뭐가 큰 일인가?" 어쩌면 나는 귀중한 불가리아의 보라색 전구를 밟고 귀중한 투자를 망칠거야. 어쩌면 나는 그의 백성의 신성한 장례식장을 넘어 종교적 감수성에 불만을 품고 있을지도 모른다. 아니면 그냥 멍청한 녀석 일 수도 있습니다. 하지만 여전히 그의 재산과 권리입니다. 오, 내가 침입 금지 표지를 무시하고 위험한 싱크 홀에 빠지면 누가 책임질 것입니까? (미국에서 나는 그가 경고했다는 사실에도 불구하고 여전히 가치가있는 모든 것에 대해 그를 고소 할 수있다. 그러나 맞습니까?)

3

많은 사람들이 주요 사이트를 긁어 모으는 "가격 비교"엔진을 구축하지 않으려 고 노력했습니다 .

트래픽/수익이 발생하기 시작하면 이고 cease and desist이 표시됩니다. 프로젝트 수십 건이 아니더라도 수십 건이 발생했습니다. 나는 Craigslist로부터 C & D를받은 작은 프로젝트에서 일했습니다.

"허가를 얻는 것보다 용서를 구하는 것이 더 쉽다"는 것을 어떻게 알 수 있습니까? 페이지 스크래핑과 관련이 없습니다. 허가를 받으면 변호사에게 연락 할 것입니다.

운이 좋으면 잃을 게없는 일찍부터있을 것입니다. 늦어지면 비즈니스와 모든 작업을 하룻밤 사이에 하나의 편지로 잃을 수 있습니다.

허락을 얻는 것이 어렵지 않아야합니다. 부적절한 행동을하지 않는 한 번을 추가로 번으로 몰아 낼 수 있습니다. 지옥, 일단 당신의 제품이 날아 오르면, 사이트는 당신을 구걸하고 있을지도 모르고, 심지어 당신에게 그들의 데이터를 추가하기 위해 지불하고 있을지도 모른다.

+0

+1. 그곳에 가서, (여행 메타 검색) 법적 통지를 받았다. 많은 공급 업체는 소비자가 가격을 비교하는 것을 좋아하지 않습니다 ... –

관련 문제