2011-11-12 3 views
2

Reddit의 r/pic 하위 reddit과 비슷하게 다양한 소스의 미디어를 집계하고 싶습니다. 일부 사이트에서는 OEmbed 사양을 사용하여 페이지의 미디어를 노출하지만 일부 사이트에서는 그렇지 않습니다. 본질적으로 사용자가 제출하고 이미지, 비디오 등을 검색하는 링크를 '긁어 내기'때문에 Reddit의 소스를 탐색했습니다. 사이트의 링크를 따라 표시되는 미리보기 이미지를 만듭니다. 이제 저는 비슷한 것을하고 싶습니다. 코드를 보았습니다. [1] 그들은 각 도메인에 대해 사용자 정의 스크래퍼를 가지고있는 것으로 보입니다. 그런 다음 간단한 로직을 사용하여 모든 도메인에서 이미지를 가져 오는 일반적인 Scraper 클래스를가집니다. (기본적으로 웹 페이지를 검색하고 html을 구문 분석 한 다음 페이지에서 가장 큰 이미지를 판별하여 축소판을 생성합니다).Perl의 링크에서 미디어 (이미지, 비디오 등) 검색

오픈 소스이므로 응용 프로그램의 코드를 재사용 할 수는 있지만 불행히도 나는 취미 프로젝트이므로 Perl을 선택했으며 Perl을 배우려고합니다. 유사한 기능을 가진 Perl 모듈이 있습니까? 그렇지 않다면 Python Imaging Library와 유사한 Perl 모듈이 있습니까? 실제로 전체 이미지 & 썸네일 생성을 다운로드하지 않고도 이미지 크기를 결정하는 것이 편리 할 것입니다.

감사합니다. [1] https://github.com/reddit/reddit/blob/master/r2/r2/lib/scraper.py

답변

0

이 시도 PerlMagick

가 설치 명령이도 나와있다.

1

Image::Size은 다양한 형식의 이미지 크기를 결정하기위한 특수 모듈입니다. 다양한 이미지 헤더 인 into a buffer and operating on that에 대한 충분한 리소스에서 처음 1000 옥텟을 읽는 것으로 충분합니다. 나는 이것을 시험하지 않았다.

전체 이미지 리소스 다운로드를 피하기 위해 HTTP 범위 요청에 대한 API가있는 일반 스크래핑 모듈을 모르지만 WWW::Mechanize 하위 클래스로 쉽게 전송할 수 있습니다.

+0

포인터 주셔서 감사합니다. 나는 이미 WWW :: Mechanize에 대해 알고 있지만, 주로 내 자신의 글을 쓰는 대신 페이지와 패키지에서 미디어를 검색하고있다. –

관련 문제