2010-12-28 2 views
3

기계로 웹 사이트 유형 (영문)을 식별하려고합니다. 나는 웹 사이트의 홈페이지를 다운로드하고, HTML 페이지를 다운로드하고, 파싱하고, 웹 페이지의 내용을 얻으려고한다. 여기에 CNN.com의 컨텍스트가 있습니다. 내 데이터베이스와 매핑, 웹 페이지의 키워드를 얻으려고합니다. 키워드에 뉴스, 속보가 포함되어있는 경우 웹 사이트는 뉴스 웹 사이트로 이동합니다. 건강, 의학 등의 단어가 있으면 의료 웹 사이트가됩니다.Ther은 Java의 영어 텍스트 또는 기사에서 키워드를 추출하는 도구입니까?

텍스트 분할을 할 수있는 도구가 몇 가지 있지만, 온라인 쇼핑과 같은 의미 론적 도구를 찾기가 쉽지 않습니다. 키워드는 두 단어로 흘려서는 안됩니다. 이 조합은 유용한 정보가 될 것입니다. 그러나 "oneline", "쇼핑"

가 • 뉴 어크, JFK 공항이 • 1 활주로가 4155 개 이상의 항공편이 FULL • 월요일 취소되었다 라구 아 디아 공항 •에서 다시 열립니다 다시 ... 그것은 온라인 여행 존재할 수 있기 때문에 덜 유용 할 것이다 STORY

* LaGuardia Airport snowplows busy Video 
* Are you stranded? | Airport delays 
* Safety tips for winter weather 
* Frosty fun Video | Small dog, deep snow 

최신 뉴스

* Easter eggs used to smuggle cocaine 
* Salmonella forces cilantro, parsley recall 
* Obama's surprising verdict on Vick 
* Blue Note baritone Bernie Wilson dead 
* Busch aide to 911: She's not waking up 
* Girl, 15, last seen working at store in '90 
* Teena Marie's death shocks fans 
* Terror network 'dismantled' in Morocco 
* Saudis: 'Militant' had al Qaeda ties 
* Ticker: Gov. blasts Obama 'birthers' 
* Game show goof is 800K mistakeVideo 
* Chopper saves calf on frozen pondVideo 
* Pickpocketing becomes hands-freeVideo 
* Chilean miners going to Disney World 
* Who's the most intriguing of 2010? 
* Natalie Portman is pregnant, engaged 
* 'Convert all gifts from aunt' CNNMoney 
* Who controls the thermostat at home? 
* This Just In: CNN's news blog 
+0

그래서 텍스트에서 키워드를 얻으려고하거나 이미 키워드가있는 DB가 있고 텍스트의 주제를 결정하기 위해 텍스트에서 찾을 수 있습니까? – ffriend

+0

나는 웹 사이트를위한 키워드를 얻는 것을 시도한다.그 후, 나는이 단어들을 사용하여 매핑을하고, 나는 웹 사이트의 유형을 식별 할 수있다. 데이터베이스에 다음과 같은 단어가 있습니다. 뉴스 : news, 속보, 쇼핑 웹 사이트 : ebay, amazone .... – Allen

답변

2

, 즉 일반적으로 당신이 위한 도구를 필요로하는 등의 데이터베이스에서 , 일부 단어가 존재 텍스트 정보의 의미 론적 분류. 이 경우 텍스트를 데이터베이스에서 키워드로 매핑하는 것이 가장 좋은 방법은 아닙니다. 폴리 시스템동의어 개의 단어를 고려하지 않기 때문에 최선의 방법은 아닙니다. 이러한 제한을 극복하기 위해 많은 기술이 발명되었습니다. 가장 잘 알려진 LSA하고 PLSA 또는 RI 같은 그 자손.

그러나 어느 누구도 그 자체로 여러 단어의 용어로 문제를 해결할 수 없습니다. 이러한 조건을 다루는 가장 엄격한 방법은이라는 단어를 에 연결하는 것입니다. 즉, 모든 "온라인 쇼핑"항목을 단일 연결 용어 "온라인 핫라인"으로 대체하십시오. 네, O (N * M)을 취할 것입니다. N은 텍스트의 단어 수이고 M은 처리 할 여러 단어의 수입니다. 그러나 제 자신의 경험에 따르면 이것이 가장 강력하고 계산 상 효율적인 방법입니다 (제발 , 당신이 더 나은 방법을 안다면 나에게 통보).

줄기 토큰이 이미있는 경우 패턴 일치과 일치하는 단어를 사용하여 용어를 찾을 수도 있습니다.

또한 FYI : 자연 언어 처리 분야에는 텍스트 자체에서 키워드와 개념을 얻는 데 도움이되는 방법이 있습니다. 예를 들어 AlchemyAPI을 참조하십시오.

+0

감사합니다. 나에게 많은 도움이된다. – Allen

0

내가 웹 사이트에 대한 키워드를 얻을하려고합니다. 그 후, 나는이 단어들을 사용하여 매핑을하고, 나는 웹 사이트의 유형을 식별 할 수있다. 뉴스 웹 사이트 : : 뉴스, 뉴스 속보, 쇼핑 웹 사이트 : 이베이, AMAZONE .... 내가 이해

관련 문제