2013-08-27 1 views
3

NLP 분야에있는 누구나 구역 해싱을 들었습니까? 내가 듣기론, 영역 해싱은 문서를 반복하고 문장을 추출하는 과정입니다. 문장의 누적이 다음 해시되고 다음에 대한 프로세스가 계속됩니다 n 문장 ...자연 언어 처리에서 영역 해싱이란 무엇입니까?

Google에서이 참조를 찾을 수 없으므로 다른 이름으로 이동하는지 궁금하네요. . 텍스트 유사성/근접성을 측정하는 것과 관련되어야합니다.

아마도 지역 민감성 해시를 말합니까?

+0

정보 검색보다 실제 NLP보다 많습니다 – erickrf

답변

1

내가 아는 한, "영역 해싱"은 NLP에서 잘 정립 된 개념이 아닙니다. 일부 알고리즘 (NLP 관련)에서 사용되는 단순한 개념입니다.

영역이 될 수 있습니다 그것을 사용 내가 아는 유일한 사람은, 다음과 같이 "영역 해싱"단순히 "영역"설명 "영역이라고하는 객체의 해시"입니다하는 Sphinx 검색 서버이며, 여기에 공식적으로 다음과 같이 정의됩니다. 개구부와 일치하는 닫기 태그 사이의 모든 것을 스팬이라고하며, 동일한 태그 이름을 공유하는 모든 스팬의 집합체 을 영역이라고합니다. 예를 들어, < H1> 및 </H1>의 출현 사이의 모든 내용은 에 있으며 문서 필드는 H1 영역에 속합니다.

index_zones 지정 문에 의해 사용되는 영역 색인화는 선택적으로 HTML 제거 프로그램의 확장입니다. 따라서 스트리퍼가 활성화되어 있어야합니다 (html_strip = 1). index_zones 값은 해당 태그 이름의 쉼표로 구분 된 목록이어야하며 영역으로 색인화되어야하는 별표로 끝나는 와일드 카드 여야합니다.

영역은 임의로 중첩되거나 중첩 될 수 있습니다. 유일한 요구 사항은 모든 시작 태그에 일치하는 태그가있는 입니다. 문서에서 두 영역 (예 : H1과 같은 고유 한 영역 이름)의 임의 숫자 및 (해당 H1 태그의 모든 항목)을 가질 수도 있습니다. 일단 인덱싱되면 영역을 ZONE 연산자와 일치시키는 데 사용할 수 있습니다 ( 섹션 5.3, "확장 쿼리 구문"참조).

이러한 구조의 해시는 검색 및 조회 속도를 높이기 위해 전통적인 의미로 사용됩니다. 나는 어떤 "더 깊은"의미를 알지 못한다.

아마도 지역 민감성 해시를 말합니까?

지역적으로 민감한 해싱은 다차원 데이터에 대한 확률적인 방법으로, 해시 함수를 사용한다는 사실을 해시 영역에 더 깊은 연결이 표시되지 않습니다.

+0

감사합니다. lejlot. 궁극적 인 목표는 텍스트 간의 유사성을 측정하고 NLP에서이 기술을 사용하여 다른 기술을 사용할 수 있는지 확인하는 것입니다. 머리 위의 다른 기술에 대해 알고 있습니까? – littleK

+0

"문자열 유사성 메트릭", "개념적 유사성 메트릭"또는 "문서 유사 메트릭"에 대한 검색 방법은 수 백 가지가 있습니다.텍스트 (문자열 커널) 및/또는 의미 (단어 네트워크)를 기반으로 한 단일 메트릭 (Hamming/Jaccard와 같은)부터 텍스트 커널 (검색 가치가있는)까지 다양합니다. – lejlot

관련 문제