기계로 웹 사이트 유형 (영문)을 식별하려고합니다. 나는 웹 사이트의 홈페이지를 다운로드하고, HTML 페이지를 다운로드하고, 파싱하고, 웹 페이지의 내용을 얻으려고한다. 여기에 CNN.com의 컨텍스트가 있습니다. 내 데이터베이스와 매핑, 웹 페이지의 키워드를 얻으려고합니다. 키워드에 뉴스, 속보가 포함되어있는 경우 웹 사이트는 뉴스 웹 사이트로 이동합니다. 건강, 의학 등의 단어가 있으면 의료 웹 사이트가됩니다.Ther은 Java의 영어 텍스트 또는 기사에서 키워드를 추출하는 도구입니까?
텍스트 분할을 할 수있는 도구가 몇 가지 있지만, 온라인 쇼핑과 같은 의미 론적 도구를 찾기가 쉽지 않습니다. 키워드는 두 단어로 흘려서는 안됩니다. 이 조합은 유용한 정보가 될 것입니다. 그러나 "oneline", "쇼핑"
가 • 뉴 어크, JFK 공항이 • 1 활주로가 4155 개 이상의 항공편이 FULL • 월요일 취소되었다 라구 아 디아 공항 •에서 다시 열립니다 다시 ... 그것은 온라인 여행 존재할 수 있기 때문에 덜 유용 할 것이다 STORY
* LaGuardia Airport snowplows busy Video
* Are you stranded? | Airport delays
* Safety tips for winter weather
* Frosty fun Video | Small dog, deep snow
최신 뉴스
* Easter eggs used to smuggle cocaine
* Salmonella forces cilantro, parsley recall
* Obama's surprising verdict on Vick
* Blue Note baritone Bernie Wilson dead
* Busch aide to 911: She's not waking up
* Girl, 15, last seen working at store in '90
* Teena Marie's death shocks fans
* Terror network 'dismantled' in Morocco
* Saudis: 'Militant' had al Qaeda ties
* Ticker: Gov. blasts Obama 'birthers'
* Game show goof is 800K mistakeVideo
* Chopper saves calf on frozen pondVideo
* Pickpocketing becomes hands-freeVideo
* Chilean miners going to Disney World
* Who's the most intriguing of 2010?
* Natalie Portman is pregnant, engaged
* 'Convert all gifts from aunt' CNNMoney
* Who controls the thermostat at home?
* This Just In: CNN's news blog
그래서 텍스트에서 키워드를 얻으려고하거나 이미 키워드가있는 DB가 있고 텍스트의 주제를 결정하기 위해 텍스트에서 찾을 수 있습니까? – ffriend
나는 웹 사이트를위한 키워드를 얻는 것을 시도한다.그 후, 나는이 단어들을 사용하여 매핑을하고, 나는 웹 사이트의 유형을 식별 할 수있다. 데이터베이스에 다음과 같은 단어가 있습니다. 뉴스 : news, 속보, 쇼핑 웹 사이트 : ebay, amazone .... – Allen