Diffbot을 사용하여 HTML 콘텐츠 추출

누군가 http://www.quranexplorer.com/Hadith/English/Index.html에서 html 데이터를 추출 할 수 있도록 도와 줄 수 있습니까? 정확한 서비스를 찾았습니다. http://diffbot.com/dev/docs/ 간단한 api를 통해 데이터 추출을 지원합니다. 문제가 발생하면 많은 URL을 처리해야합니다. 내가 그 URL이 다음 API는 HTML 데이터의 JSON 형식으로 생성하여 다음과하는 스크립트를 작성해야 http://test.deen-ul-islam.org/html/h.js Diffbot을 사용하여 HTML 콘텐츠 추출

아래의 링크

있습니다 (사이트에서 API는 일괄 요청이 웹 사이트의 문서를 확인하실 수 있습니다) diffbot은 한 달에 10000 회의 무료 요청 만 허용하므로 진행 상황을 저장하고 중단 한 부분을 선택할 수있는 방법이 필요합니다.

다음은 PHP를 사용하여 만든 예제입니다. 이 도구는 자바 스크립트 나 PHP에 난 그냥 JSON 형식의 HTML 데이터를 얻을 수있는 방법을 필요로하는 경우

$token = "dfoidjhku";// example token 
$url = "http://www.quranexplorer.com/Hadith/English/Hadith/bukhari/001.001.006.html"; 
$geturl="http://www.diffbot.com/api/article?tags=1&token=".$token."&url=".$url; 
$json = file_get_contents($geturl); 
$data = json_decode($json, TRUE); 
echo $article_title=$data['title']; 
echo $article_author=$data['author']; 
echo $article_date=$data['date']; 
echo nl2br($article_text=$data['text']); 
$article_tags=$data['tags']; 
foreach($article_tags as $result) { 
    echo $result, '<br>'; 
}

나는 상관하지 않습니다.

출처

2013-05-07 user5601

여기에서 Diffbot의 John. 참고 : 개발자는 아니지만 단순한 작업을 수행하기 위해 해킹 코드를 작성하는 데 충분한 지식이 있어야합니다.

링크 목록이 있습니다. 링크를 반복하면 각 링크를 반복해서 호출해야합니다.

는 다음과 같은 않습니다 파이썬 스크립트입니다 :

https://gist.github.com/johndavi/5545375 내가 JS 파일에서 링크를 꺼내 숭고한 텍스트의 빠른 검색 정규식을 사용했다.

이것을 자르려면 링크 중 일부를 잘라 낸 다음 실행하십시오. Batch API를 사용하지 않으려면 시간이 걸릴 것입니다.

개선하거나 변경해야하는 경우 더 강력한 개발자를 직접 찾아야합니다. Diffbot은 개발자에게 친숙한 도구입니다.

출처

2013-05-09 03:53:49

안녕하세요, 코드에 대한 감사, 유일한 문제는 내가 어떻게 파이썬을 사용하는 법을 모르겠다, 당신은 스크립트의 PHP 버전을 만들 수있는 가능성, – user5601

안녕, 고마워 - 미안, 그게 내가 할 수있는만큼이야 가기. 몇 PHP 가이드가 쉽게 이것을 복제하는 데 도움이 될 것이라고 확신합니다. 행운을 빕니다! –

Diffbot을 사용하여 HTML 콘텐츠 추출

답변

관련 문제