2014-04-18 1 views
0

신문 및 잡지 웹 사이트 및 블로그에 게시 된 기사의 길이를 가져오고 싶습니다.Node.js의 먼 페이지에 "readabilitySAX"를 사용하십시오.

var Readability = require("readabilitySAX/readabilitySAX.js"), 
Parser = require("htmlparser2/lib/Parser.js"); 

var readable = new Readability({ 
    pageURL: "http://www.nytimes.com/2014/04/18/business/treatment-cost-could-influence-doctors-advice.html?src=me&ref=general" 
}); 
parser = new Parser(readable, {}); 

console.log(readable.getArticle().textLength); 

답변

1

을 :이 코드가 작동하지 않기 때문에 Node.js를 만들어 서버에서 , 나는 "readabilitySAX"모듈 (https://github.com/fb55/readabilitySAX)를 사용하려면,하지만 난 그것을 사용하는 방법과 실수를해야합니다 Readability가 페이지를 다운로드하지 말고 상대 링크를 해결할 때 pageURL 속성이 사용됩니다.

require("readabilitySAX").get("http://url", {type:"html"}, function(article) { 
    console.log(article.textLength); 
}) 
:

페이지를 다운로드하려면, 당신은 get 방법을 사용할 수 있습니다