2013-11-10 2 views
1

Amazon에서 가격 및 공급 업체와 같은 정보를 추출하려고합니다.python을 사용하여 HTML에서 특정 정보를 추출하십시오.

내가 지금하는 방식은 가격과 같은 핵심 단어를 찾은 다음 원하는 정보를 찾는 것입니다.

아마존과 같은 웹 사이트가 프레임을 약간 변경하면 코드가 더 이상 작동하지 않을 수 있습니다.

비슷한 것들을하는 더 나은 방법/알고리즘이 있는지 궁금합니다.

감사합니다.

답변

1

웹 사이트에서 데이터에 액세스하려고합니다. 당신이 제안한 것은 수공품 API 또는 응용 프로그램 프로그래밍 인터페이스입니다.

수공품 API의 주요 결함 중 하나는 귀하가 언급 한 것과 정확히 일치하거나 웹 페이지 공급 업체가 귀하의 API를 사용할 수 없게 만드는 작은 변화를 일으킬 수 있다는 것입니다.

일반적으로 웹 사이트 소유자에게 속한 데이터에 직접 액세스 할 수있는 API를 사용하는 것이 좋습니다. 이러한 API는 웹 사이트 소유자가 직접 작성하므로 데이터에 직접 액세스 할 수 있으며 HTML 스크래핑을 사용할 때 사용자와 원하는 데이터 사이에있는 지저분한 서식을 처리합니다.


특히 Amazon의 가격 API는 here입니다.

중요 :

으로는 라이센스 계약의 제 4B 읽어 보시기 바랍니다 here 언급 :

(b) 귀하가 합법적 인 방식으로 제품 광고 내용 만 (i)를 사용하는 것; (ii) 본 라이센스 계약의 조항 및 섹션 6에서 부여 된 라이센스의 명시 적 범위 내에서; (iii) 최종 사용자를 Amazon 사이트로 보내고 판매를 유도하는 것. 귀하는 제품 광고 API, 데이터 피드 또는 제품 광고 콘텐츠를 사이트 또는 응용 프로그램 또는 기타 방식으로 사용하지 않으며 Amazon 사이트의 광고 및 마케팅을 목적으로하지 않으며 제품 및 서비스의 판매를 Amazon 사이트의 서비스.

관련 문제