2011-03-30 4 views
2

나는 어떤 종류의 피드처럼 컨텐츠를 게시 할 수있는 애플리케이션을 개발 해왔다. 링크와 같은 콘텐츠를 추가하고 싶습니다 (예 : Facebook 벽과 같은).페이스 북 벽처럼 링크에서 정보 추출

그러면 링크 대상을 구문 분석하고 올바른 텍스트와 이미지를 추출하여 미리보기 이미지를 만들길 원합니다.

페이스 북과 마찬가지로 벽에 링크를 게시하고 있습니다.

추출/크롤링 엔진은 상당히 복잡해 보이지만이를 해결하는 가장 좋은 방법은 무엇입니까?

페이 스북 (Facebook) API를 돌아 다니며 페이 스북 (Facebook)에서 항목을 게시하고 그런 식으로 엔진을 사용하는 것에 대해 생각해 봤지만 내부 시스템으로 이것을 실제로하고 싶습니다.

답변

2

AFAIK 페이스 북은 메타 태그 (Open Graph Protocol)를 사용하여이를 수행합니다. 자세한 내용은 https://developers.facebook.com/docs/opengraph/에서 공부할 수 있습니다.

기본적으로 내부적으로 구현하려는 경우 규칙을 정의해야합니다.
희망이 도움이됩니다.

+1

감사합니다 !!! 이것은 굉장합니다 ... 링크는 실제로 URL 링터에 대해 설명합니다. 정확히 내가 필요한 것을 수행하고 json을 반환합니다. 그래서 내 POC에 대한 페이스 북을 사용합니다. 린터 개미는 반환 된 JSON을 가져옵니다. https://developers.facebook.com/tools/lint/?url=[YOUR-URL]&format=json – esbenr

+0

문제 없습니다. 행운을 빕니다. :) – Kamyar

+0

고마워요! 정확히 내가 뭘 찾았는지. –

0

나는 페이스 북의 인프라가하는 일은 페이지의 내용을 (아약스 전화로) 끌어 와서 첫 번째 단락을 취하는 것이라고 생각한다. (웹 페이지라면 설명이 youtube 비디오인지 등등) 사용자가 페이지의 이미지 중 하나를 미리보기 이미지로 선택합니다. 마크 업에서 첫 번째 이미지를 선택하거나 자신 만의 종류의 로직을 디자인 할 수 있습니다. Basiclly, 임시 캐싱 엔진을 설계하는 것과 같이 이것에 대해 갈 것입니다. 페이지 마크 업 + 이미지를 얻은 다음 사용하여 버립니다.

+0

일종. 그러나 주요 내용 및 옆 내용이있는 페이지에 연결에 복종시키는 경우에, Facebooks 논리는 항상 주요 원본 및 아닙니다 부 텍스트를 가져옵니다. 이것은 내가 페이지를 크롤링 할 때 컨텐트 컨테이너간에 미리 정리할 수있는 몇 가지 종류의 OG 논리를 가지고 있음을 알려줍니다. – esbenr

+0

GoogleBot과 동일한 로직을 사용하고 있다고 생각합니다. 사이트의 왼쪽 상단 모서리에 가장 가까운 H1 태그 아래 단락이 가장 큰 가중치를 얻습니다. –