2009-07-17 6 views
0

좋습니다. 검색 엔진을 구축하십시오. 및 관련 단어를 추출 할 수있는 검색 모듈을 포함한다. 그리고 지금 나는 원본 소스 text.is에서 단어 목록과 그들의 오프셋을 levenshtein 거리를 사용하여 쿼리 문자열과 소스 텍스트의 부분 사이의 차이를 계산하는 것은 좋지 않습니다. 주어진 단어의 오프셋에서 시작하여 문자열의 길이를 쿼리합니다.). 나는 이것이 내가 발췌를 더 빨리 만들어내는 데 도움이 될 것이라고 생각 하느냐고 물었다.levenshtein 거리를 사용하여 발췌문을 생성

근접 검색 등은 필요 없으며 일반적인 'ANY'및 'ALL'모드 만 필요합니다. btw, 결과가 이미 정렬 된 그래서 지금은 발췌 세대로만 찾고 있어요. 감사.

답변

1

텍스트와 포함 된 단어 (및 개수)에 대한 일대 다 매핑을 작성하십시오. 이 "단어 모음"벡터는 다양한 기술에 사용될 수 있습니다.

+0

내 계획 이었지만이 기술은 적은 반복으로 더 빠르게 할 수 있었을 것입니다. – kar

+0

나는 당신이 의미하는 반복이 무엇인지 이해하지 못한다. 해당 벡터를 작성하려면 단일 패스가 필요합니다. – bayer

관련 문제