읽는 방법 URL이있는 웹 페이지에서 열린 그래프 및 메타 태그

페이스 북과 마찬가지로 사용자가 게시물 상자에 링크를 붙여 넣을 때 내 웹 사이트가 웹 페이지에 대한 정보를 가져올 수 있기를 원합니다.읽는 방법 URL이있는 웹 페이지에서 열린 그래프 및 메타 태그

Google, Reddit 및 Facebook과 같은 사이트가 URL로 미리보기 이미지, 제목 및 설명을 검색 할 수 있는지 궁금합니다.

누구나 어떻게 알 수 있습니까?

2013-05-25 user1537360

기본 알고리즘은 비교적 간단합니다. 페이지를 가져 와서 내용을 분석하고 텍스트를 추출하고 & 이미지 & 제목 & 무엇이든 미리보기를 작성하십시오. 그러나 특정 사용 사례에는 많은 어려움이 있습니다. 메뉴, 배너 및 추가, 텍스트 구조 - 매우 세심한 처리가 필요한 다양한 세부 정보. AFAIK에는 100 %의 경우에이 작업을 해결할 수있는 알고리즘이 없습니다 (예, Google 및 기타 알고리즘은 완벽하지 않습니다).

Reddit 소개 오픈 소스이기 때문에 정확히 어떻게 작동하는지 확인할 수 있습니다. 찾고있는 코드는 다음과 같습니다. https://github.com/reddit/reddit/blob/master/r2/r2/lib/scraper.py

얀 덱스는 동일한 작업을 수행 할 수있는 API를 가지고 있습니다. 자세한 내용은 here 및 here을 참조하십시오.

출처

2013-05-27 15:18:34 ajax

감사! 나는이 지위를 갱신 했어야했는데, 나는 그것이 죽었다고 추정했다. 내가 cURL로 찾고있는 것을 얻었습니다. PHP로 웹 페이지를로드하고 메타 태그 만 검색합니다. 오픈 그래프 나 트위터 카드를 사용할 수있는 경우에만 이미지를 사용합니다. 그러나 모든 사이트에서 이들을 사용하지는 않기 때문에 더 깊은 스캔을 생각하고 있습니다. 광고에 대해서는 생각하지 않았습니다. 리소스를 가져 주셔서 감사합니다! – user1537360

마크 업이 전혀 없을 때 가장 흥미로운 부분이 시작됩니다. :) – ajax

읽는 방법 URL이있는 웹 페이지에서 열린 그래프 및 메타 태그

답변

관련 문제