2014-02-07 2 views
1

사이트에서 데이터를 추출하고 싶습니다. 이미 기사 추출기를 사용하는 사이트로부터 정보를 얻었으나 이제는 특정 장소의 사건에 대한 정보를 얻고 싶습니다. 나는이 사이트에 "http://www.indianevents.org/events-Rajasthan-14.htm"나는 모든 이벤트를 추출 할 수 있었다에서 정보를 추출 할 input.For의 예로서 나는 위치를 줄 때 그 장소에서 이벤트를 얻으려면, 등 축제사이트에서 데이터 추출

URL url; 
url = new URL(str); 
InputSource is = HTMLFetcher.fetch(url).toInputSource();  
BoilerpipeSAXInput in = new BoilerpipeSAXInput(is); 
TextDocument doc = in.getTextDocument();  
news=ArticleExtractor.INSTANCE.getText(doc); 
+0

기본적으로 출력을 구문 분석 하시겠습니까 ?? –

+0

예 이벤트, 축제, 전시회 등 모든 세부 정보를 추출하고 싶습니다. 입력으로 특정 장소를 지정하면됩니다. – lulu

답변

2
  • 당신이 이벤트 정보를 식별 할 수 있습니다 의미있는 문장
  • 및 NLP에 텍스트를 구문 분석 stanford pos tagger을 사용할 수 있습니다
  • 텍스트 내용을 다운로드 Apache Tika을 고려하십시오.

이 글을 쓰는 것이 간단 할 수도 있지만 (어려운 일임). 행운을 비네. :)

관련 문제