텍스트 파일의 벡터화를 구현하려고합니다 ... 모든 문서에서 고유 한 단어 사전을 만들었습니다 ... 자바에서 이것을 구현하는 가장 좋은 방법은 무엇입니까?텍스트 파일의 벡터화
예 : - 내 사전에 다음 단어가 있습니다. - {w1, w2, w3, w4} 그리고 두 단어가 각각 어휘집에 포함되어 있습니다.
는1,3,4,0
0,0,2,1
여기서 각 로우는 문서를 나타내고, 숫자는 문서 내의 각 단어의 발생을 나타내는 - I는 행렬 형태로 파일을 텍스트에 쓸 필요가있다.
자바로 구현하는 가장 효율적인 방법을 제안 해 주시겠습니까? 단어가 사전에 이미있는 경우는 출력 파일의 수를 출력하는 사전을 통해 계산을
지금까지 가지고있는 것을 보여주십시오. – Sid
사전 텍스트를 텍스트 파일에 저장했습니다 ... 그리고 함수에 인수로 텍스트 문자열을 전달하고 있습니다 .... public void createVector (String text) throws IOException {String [] x = tweet.split (""); 대한 \t \t (문자열 w : X) { \t \t \t 동안 (((V = reader.readLine()) = NULL)!) {...}}}'나는 어떻게 계산에 관해서는 조금 혼란 스러워요 사전에있는 각 단어가 텍스트 문자열에 나오는 횟수. – Fox
키가 단어이고 값이 카운트 인 사전을 유지 관리 할 수 있으며 해당 단어를 만날 때마다 카운트를 증가시킵니다. – Sid