2016-09-13 2 views
0

문자열 유사성 측정에 사용해야하는 테스트 및 교육 데이터 세트가 있습니다. (트레이닝 세트 (35 개 샘플) 및 테스트 세트 15 개 샘플 : 우리는 두 가지로 데이터 세트를 분할 할 필요가 트위터를 주제자코드 계수를 사용하여 문자열 유사성 측정

TWEET_SENT_1 – Tweet sentence 1 
TWEET_SENT_2 – Tweet sentence 2 
HAVE_SIMILAR_MEANING – a binary label (True – two sentences are similar, false – two sentences are not similar) assigned by a human annotator 

- 나는 여기

Brandon Bass ||| what the hell is Brandon bass thinking ||| Brandon Bass Has 5 Personal Fouls ||| False 
Sac ||| Congrats to Sac Kings fans ||| why yall forcing the kings to stay in sac town smh ||| False 
Stella ||| hello Stella can you follow me please ||| STELLA DO U HATE ME ||| False 


The data file has 50 entries of the form 
TOPIC ||| TWEET_SENT_1 ||| TWEET_SENT_2 ||| HAVE_SIMILAR_MEANING 

주제, 데이터 세트의 몇 줄을 준) 알고리즘의 매개 변수 조정을위한 교육 세트를 사용해야합니다. 그리고 최적의 조정 된 매개 변수를 사용하여 테스트 세트로 테스트하십시오. 알고리즘 인 Jaccard 계수는

가 어떻게이 작업을 수행 할 수 있습니다

경우? 누군가 내가 사용할 수있는 접근법을 알려주시겠습니까?

답변

0

자 카드 유사성은 두 세트 (귀하의 경우 n 그램)가 유사한 방식의 척도입니다. 두 문자열이 비슷하거나 짝이 맞지 않다고 판단하는 임계 값을 제외하고 여기서 수행 할 "조정"이 없습니다.

ngrams (n=2) : 'abcde' & 'abdcde' 
    ab bc cd de dc bd 
A 1 1 1 1 0 0 
B 1 0 1 1 1 1 

J (A, B) = (A∩B)/(A∪B)

J (: 당신이이 문자열 abcdeabdcde이있는 경우 예를 들어

그것은 다음과 같이 작동합니다 A, B) = (6분의 3) = 0.5

가 또한 두 세트 사이의 유사성을 포착 인 Jaccard 거리이며 one 마이너스이 경우의 인 Jaccard의 coeeficient (1 - 0.5 = 0.5를 취함으로써 계산된다)

문제 때문에, 당신의 문자열이 유사/유사하지 않은 것으로 간주되는 적절한 임계 값을 정의하기 위해 레이블이있는 교육 세트를 사용합니다.

관련 문제