2013-05-25 4 views

답변

0

기본 알고리즘은 비교적 간단합니다. 페이지를 가져 와서 내용을 분석하고 텍스트를 추출하고 & 이미지 & 제목 & 무엇이든 미리보기를 작성하십시오. 그러나 특정 사용 사례에는 많은 어려움이 있습니다. 메뉴, 배너 및 추가, 텍스트 구조 - 매우 세심한 처리가 필요한 다양한 세부 정보. AFAIK에는 100 %의 경우에이 작업을 해결할 수있는 알고리즘이 없습니다 (예, Google 및 기타 알고리즘은 완벽하지 않습니다).

Reddit 소개 오픈 소스이기 때문에 정확히 어떻게 작동하는지 확인할 수 있습니다. 찾고있는 코드는 다음과 같습니다. https://github.com/reddit/reddit/blob/master/r2/r2/lib/scraper.py

얀 덱스는 동일한 작업을 수행 할 수있는 API를 가지고 있습니다. 자세한 내용은 herehere을 참조하십시오.

+0

감사! 나는이 지위를 갱신 했어야했는데, 나는 그것이 죽었다고 추정했다. 내가 cURL로 찾고있는 것을 얻었습니다. PHP로 웹 페이지를로드하고 메타 태그 만 검색합니다. 오픈 그래프 나 트위터 카드를 사용할 수있는 경우에만 이미지를 사용합니다. 그러나 모든 사이트에서 이들을 사용하지는 않기 때문에 더 깊은 스캔을 생각하고 있습니다. 광고에 대해서는 생각하지 않았습니다. 리소스를 가져 주셔서 감사합니다! – user1537360

+0

마크 업이 전혀 없을 때 가장 흥미로운 부분이 시작됩니다. :) – ajax

관련 문제