저는 Python을 처음 접했고 최근에는 두 텍스트 간의 코사인 유사성을 수행하기 위해 일부 텍스트 처리를 수행해야합니다.Python을 사용하여 고유 한 단어를 0 또는 1로 벡터화
NLTK 라이브러리를 사용하여 소문자, 텍스트 토큰 화, 불용어 제거 및 해당 단어의 형태소 분석과 같은 텍스트의 기본 사전 처리 작업을 수행 할 수 있습니다. 이제는 모든 텍스트 파일에서 고유 한 단어 목록을 만들 수있었습니다.
그런 다음 내가 만든이 고유 단어 목록에는 내가 가지고있는 텍스트 파일에 따라 1로 벡터화하고 (나머지는 0으로) 원하는 특정 단어 만 있습니다.
awesome| best | carry | elephant | fly | home | irresponsible | implicit
1 | 1 | 0 | 0 | 0 | 1 | 0 | 0
내가 인터넷 검색 여기 스택 오버 플로우를 통해 보는 시도했다, 그러나 일반적인 솔루션 중 하나를 보인다
그래서 예를 들어, 고유 한 단어의 목록을 벡터화 된 후에는 아래와 같이 보일 것이다 목록 변환에 scikit learn - features 추출을 사용하고 있습니다. 그러나, 나는 단지 0 또는 1을 원한다. 그리고 1은 텍스트 파일에 의해 지정되어야한다. 예를 들어
, 나는이 사전에 유사성을 계산하는 싶습니다 (1으로 모든 벡터화 후) 한 TEXTFILE이 ... 그래서 다음과 같이 보일 것이다 :
Text_to_Compare.txt
awesome | fly | implicit
1 | 1 | 1
그런 다음 "Text_to_Compare.txt"를 고유 단어 목록과 비교하여 유사성 결과를 계산합니다.
누구나 친절하게 안내 할 수 있습니다. 고유 한 단어 목록을 0 또는 1로 벡터화하고 "Text_to_Compare.txt"를 모두 1로 벡터화하려면 어떻게해야합니까?
감사합니다.
출력 결과를 예상 할 수 있습니까? 즉"텍스트 파일을 '{'awesome ': 1,'best ': 1,'carry ': 0, ...}'와 같은 파이썬 dict로 구문 분석하고 싶습니다. 지금 당장 당신이 성취하고자하는 바를 말하는 것은 어렵습니다. –
@HenryKeiter, 신속한 회신에 감사드립니다! 가장 먼저 할 일은 단어 목록을 0 또는 1로 벡터화하고 두 파일 간의 유사성을 계산하는 것입니다. 따라서 최종 출력은 0.74와 유사해야합니다 (유사성에 따라 다름). 그러나 현재, 나는 여전히 독특한 단어들의리스트를 벡터화하는 데에 집착하고있다 ... – Yoshiaki
당신은 오해한다. 당신의 * vectorizing * 결과는 어떻게 될 것으로 기대합니까? 일부 텍스트의 경우 데이터 구조 나 출력 형식 지정 조언을 찾는 것처럼 들릴 수 있지만 "단어 목록을 0 또는 1로 벡터화"하는 것은 확실한 문제는 아닙니다. –