에 문자열을 토큰 화하는 방법은 문자열을 토큰 화하려면, 아래의 코드를 사용 :파이썬 3.5.2
print(raw)
tokens = nltk.word_tokenize(raw)
tokens
는 '원시'HTML 파일에서 추출 된 텍스트입니다. '원시'인쇄가되었지만 마지막 두 줄이 작동하지 않았습니다. 나는 nltk 3.2.1과 Python 3.5.2를 가지고있다. nltk가 Python 3의 업그레이드를 계속하고 있다고 nltk의 제작자가 회상했습니다.
그래서 파이썬 3.5.2 환경에서 문자열을 토큰 화하는 다른 방법이 있습니까? BeautifulSoup 또는 다른 패키지가 그렇게합니까?
마지막 두 줄이 "작동하지 않음"이라고 말하면 더 구체적으로 표현할 수 있습니까? 특히 입력 내용이 정확히 무엇이며 예상 한 결과는 무엇이며 실제로 얻은 결과는 무엇입니까? –
입력 내용이 '제 1 장 예외적으로 더운 저녁에 ...'문자열 인 경우 마지막 행의 출력은 다음과 같아야합니다 [ 'Chapter', 'I', 'on', 'an' '예외적으로', ...]. 하지만 이제는 아무 것도 보이지 않고 코드가 건너 뛴 것처럼 보입니다. – dwill
@Jon Ericson 그리고 나는 어떤 오류 메시지도받지 않았다. – dwill