누군가 http://www.quranexplorer.com/Hadith/English/Index.html에서 html 데이터를 추출 할 수 있도록 도와 줄 수 있습니까? 정확한 서비스를 찾았습니다. http://diffbot.com/dev/docs/ 간단한 api를 통해 데이터 추출을 지원합니다. 문제가 발생하면 많은 URL을 처리해야합니다. 내가 그 URL이 다음 API는 HTML 데이터의 JSON 형식으로 생성하여 다음과하는 스크립트를 작성해야 http://test.deen-ul-islam.org/html/h.jsDiffbot을 사용하여 HTML 콘텐츠 추출
아래의 링크
있습니다 (사이트에서 API는 일괄 요청이 웹 사이트의 문서를 확인하실 수 있습니다) diffbot은 한 달에 10000 회의 무료 요청 만 허용하므로 진행 상황을 저장하고 중단 한 부분을 선택할 수있는 방법이 필요합니다.
다음은 PHP를 사용하여 만든 예제입니다. 이 도구는 자바 스크립트 나 PHP에 난 그냥 JSON 형식의 HTML 데이터를 얻을 수있는 방법을 필요로하는 경우
$token = "dfoidjhku";// example token
$url = "http://www.quranexplorer.com/Hadith/English/Hadith/bukhari/001.001.006.html";
$geturl="http://www.diffbot.com/api/article?tags=1&token=".$token."&url=".$url;
$json = file_get_contents($geturl);
$data = json_decode($json, TRUE);
echo $article_title=$data['title'];
echo $article_author=$data['author'];
echo $article_date=$data['date'];
echo nl2br($article_text=$data['text']);
$article_tags=$data['tags'];
foreach($article_tags as $result) {
echo $result, '<br>';
}
나는 상관하지 않습니다.
안녕하세요, 코드에 대한 감사, 유일한 문제는 내가 어떻게 파이썬을 사용하는 법을 모르겠다, 당신은 스크립트의 PHP 버전을 만들 수있는 가능성, – user5601
안녕, 고마워 - 미안, 그게 내가 할 수있는만큼이야 가기. 몇 PHP 가이드가 쉽게 이것을 복제하는 데 도움이 될 것이라고 확신합니다. 행운을 빕니다! –