문자열 유사성 측정에 사용해야하는 테스트 및 교육 데이터 세트가 있습니다. (트레이닝 세트 (35 개 샘플) 및 테스트 세트 15 개 샘플 : 우리는 두 가지로 데이터 세트를 분할 할 필요가 트위터를 주제자코드 계수를 사용하여 문자열 유사성 측정
TWEET_SENT_1 – Tweet sentence 1
TWEET_SENT_2 – Tweet sentence 2
HAVE_SIMILAR_MEANING – a binary label (True – two sentences are similar, false – two sentences are not similar) assigned by a human annotator
- 나는 여기
Brandon Bass ||| what the hell is Brandon bass thinking ||| Brandon Bass Has 5 Personal Fouls ||| False
Sac ||| Congrats to Sac Kings fans ||| why yall forcing the kings to stay in sac town smh ||| False
Stella ||| hello Stella can you follow me please ||| STELLA DO U HATE ME ||| False
The data file has 50 entries of the form
TOPIC ||| TWEET_SENT_1 ||| TWEET_SENT_2 ||| HAVE_SIMILAR_MEANING
주제, 데이터 세트의 몇 줄을 준) 알고리즘의 매개 변수 조정을위한 교육 세트를 사용해야합니다. 그리고 최적의 조정 된 매개 변수를 사용하여 테스트 세트로 테스트하십시오. 알고리즘 인 Jaccard 계수는
가가 어떻게이 작업을 수행 할 수 있습니다
경우? 누군가 내가 사용할 수있는 접근법을 알려주시겠습니까?