텍스트 파일 하나를 읽고 textmining 패키지를 사용하여 용어 문서 행렬을 만들려고합니다. 각 줄을 한 줄씩 추가해야하는 용어 문서 행렬을 만들 수 있습니다. 문제는 한 번에 전체 파일을 포함하고 싶다는 것입니다. 다음 코드에서 누락 된 부분은 무엇입니까? 미리 제안 해 주셔서 감사합니다.텍스트 파일에서 용어 문서 행렬 만들기
import textmining
def term_document_matrix_roy_1():
'''-----------------------------------------'''
with open("data_set.txt") as f:
reading_file_line = f.readlines() #entire content, return list
print reading_file_line #list
reading_file_info = [item.rstrip('\n') for item in reading_file_line]
print reading_file_info
print reading_file_info [1] #list-1
print reading_file_info [2] #list-2
'''-----------------------------------------'''
tdm = textmining.TermDocumentMatrix()
#tdm.add_doc(reading_file_info) #Giving error because of readlines
tdm.add_doc(reading_file_info[0])
tdm.add_doc(reading_file_info[1])
tdm.add_doc(reading_file_info[2])
for row in tdm.rows(cutoff=1):
print row
샘플 텍스트 파일 : "data_set.txt"다음 정보가 들어 있습니다
는
는 지금까지,이 책은 임시 검색의 과정을 논의 중심으로 한 일부 파이썬 코드를 작성할 수 있습니다.
길을 따라 우리는 중요한 기계 학습 기술을 공부할 것입니다.
출력은 용어 문서 행렬입니다. 기본적으로 하나의 특정 단어가 몇 번 나타납니다. 출력 이미지 : 내가 제대로 이해 해요 경우 http://postimg.org/image/eidddlkld/
정말 질문하지 않았습니다. 당신이 얻는 결과는 무엇입니까? 너는 무엇을 기대하고 있니? 작동하지 않는 것은 무엇입니까? 오류 메시지 란 무엇입니까? –
내가 텍스트 파일에서 각 줄마다 하나씩 배열에 추가하는 질문에서 언급했지만 전체 파일 내용을 추가하는 방법은 무엇입니까? 그래서 그것은 텍스트 파일에서 각 줄을 한 줄씩 읽고 용어 문서 행렬을 보여줍니다. 감사합니다. – J4cK
@ 부탄 칼리드 질문은 이미지로 업데이트되었습니다. – J4cK