2011-02-01 6 views
0

용어 추출 알고리즘/서비스를 찾고 있습니다. 이것은 편집자를위한 제안 일 뿐이므로 추출 된 용어는 불완전 할 수 있습니다. 따라서 텍스트를 사용 가능한 용어 목록과 비교하고이 목록 외부의 용어를 제안하지 않습니다.사용 가능한 용어 목록으로 용어 추출

작업이 간단 해 보입니다. 각 용어에 대해 텍스트의 모양 수를 세고, 상위 용어를 필터링하십시오. 하지만 여기에 나는 수십만 개의 용어가 나열된이 있습니다.이 작업은 불가능한 것처럼 보입니다. 당신이하는 서비스 나 알고리즘을 아십니까?

또 다른 세부 사항은 용어 추출 서비스에 만족하지만 (이 목록은 내 목록을 기반으로 용어를 필터링 함) 영어 이외의 언어이며 대부분의 단어는 복합어이므로 어떤 것도 모릅니다. 유용한 서비스.

감사합니다.

편집 : 예

혼 하이 31/1/2011, 에릭슨 초 biết DJA 트린 디엔 맹 HSPA (고속 패킷 접속) 목 VOI TOC DJO 용 다운로드 렌 đến 168 메가 비트/지아이, 24 Mbit/giây. 에릭슨에게 싱텔과의 대화를 나누기 위해 싱어 송 라이터를 연결해 줬다.

DJE đạt TOC DJO 168 메가 비트/지아이 에릭슨 DJA SU 배설물 MOT 있도록 목 thuật VÔ 투엔 바오 곰 뭉친 anten 응에 MIMO (다중 입력 다중 출력) VA 뒤 GUI 대신 ...로서 nhiều kênh cùng MOT LUC. MIMO는 송신기와 송신기 사이의 통신을 지원합니다.

테오 에릭슨, cũng SE 공동 MOT buổi 트린 디엔 NHU의 vay được 티엔 스님 타이 트리 엔 램 모바일 월드 콩그레스 (Mobile World Congress) SAP 토이 O 바르셀로나 (TAY 금지 냐)

그리고 제안 목록이있을 수 있습니다 : 에릭슨, 트린 (다른 사람들의 것 사이)

+0

예를 들어 주시겠습니까? –

+0

그래서 본질적으로 텍스트에서 가장 빈번한 단어를 가져오고 싶습니다. 그 맞습니까? –

+0

대부분의 단어는 복합어라고하셨습니다. 먼저 용어로 무엇을 의미하는지 정확하게 정의하십시오. – ThomasMcLeod

답변

0

첫 번째 라운드에서는 모든 단어를 추출하여 목록에있는 단어를 찾아 볼 수 있습니다. 바이너리 검색을 통해 목록이 주문 된 경우.

두 번째 라운드에서는 모든 단어 쌍 (Hôm thứ, thứ Hai, Ericsson cho, cho biết) 등을 추출하고 목록에서 해당 용어를 찾습니다.

모든 나중에 단계는 아니 훨씬 더 복잡한 처음보다 : 첫 번째 단계에서는 두 번째 단계에서 텍스트에 다른 단어가있을만큼 많은 조회를해야합니다 검색 할 단어 조합의 수는 텍스트의 총 단어 수에 더 가깝습니다. 하지만 여전히 복합어는 그 문제를 그다지 복잡하게 만들지 않는다고 말하고 싶습니다. 첫 번째 단계에서 단어 추출 결과를 기반으로 두 번째 단계의 목록 크기를 상당히 줄이는 것이 가능할 수 있습니다.

아니면 너무 간단하다고 생각합니까?

+0

감사합니다. 첫 번째 단어는 단순 단어 (단어 = 'w1')이고 두 번째 단어는 복합 단어 접두어 (단어 = 'w1 w2'또는 단어 = 'w1 w2 %')와 두 단계로 처리 할 것입니다. 나는 첫 번째 단계에서 (단어 = 'w1 %') 결과 집합이 커지고 더 많은 쓸모없는 단어를 포함하기 때문에 그렇게하지 않는다. – jcisio