2013-10-01 3 views
0

저는 boilerpipe 라이브러리를 사용하여 뉴스 기사에 기사를 쓰고 있습니다. 뉴스 기사에는 저작권 정보, 관련 기사의 측면 창 등과 같은 많은 상용구가 포함되어 있습니다. Boilerpipe은 모든 정보를 제거합니다. 상용구 정보를 반환 할 수 있습니까? 나는 분석기를 필요로하고 저작권 진술 등을 추출해야한다.보일러 파이프를 사용하여 상용구를 유지하십시오.

또한, 그것이 상용구인지 아닌지에 대한 각 텍스트 블록에 대한 일종의 신뢰도가 포함되어 있는가?

감사합니다.

답변

1

당신은 전체 텍스트를 가져 오거나 문서 클래스의 상용구를 사용하여 실제 텍스트 블록을 통과 할 수 제공 :

final HTMLDocument htmlDoc = HTMLFetcher.fetch(new URL(url)); 
final TextDocument doc = new BoilerpipeSAXInput(htmlDoc.toInputSource()).getTextDocument(); 
// doc.getText(true, true) will give you all the text 
// doc.getTextBlocks will let you traverse the document 
관련 문제