2016-10-09 3 views
0

에 문자열을 토큰 화하는 방법은 문자열을 토큰 화하려면, 아래의 코드를 사용 :파이썬 3.5.2

print(raw) 
tokens = nltk.word_tokenize(raw) 
tokens 

는 '원시'HTML 파일에서 추출 된 텍스트입니다. '원시'인쇄가되었지만 마지막 두 줄이 작동하지 않았습니다. 나는 nltk 3.2.1과 Python 3.5.2를 가지고있다. nltk가 Python 3의 업그레이드를 계속하고 있다고 nltk의 제작자가 회상했습니다.

그래서 파이썬 3.5.2 환경에서 문자열을 토큰 화하는 다른 방법이 있습니까? BeautifulSoup 또는 다른 패키지가 그렇게합니까?

+1

마지막 두 줄이 "작동하지 않음"이라고 말하면 더 구체적으로 표현할 수 있습니까? 특히 입력 내용이 정확히 무엇이며 예상 한 결과는 무엇이며 실제로 얻은 결과는 무엇입니까? –

+0

입력 내용이 '제 1 장 예외적으로 더운 저녁에 ...'문자열 인 경우 마지막 행의 출력은 다음과 같아야합니다 [ 'Chapter', 'I', 'on', 'an' '예외적으로', ...]. 하지만 이제는 아무 것도 보이지 않고 코드가 건너 뛴 것처럼 보입니다. – dwill

+0

@Jon Ericson 그리고 나는 어떤 오류 메시지도받지 않았다. – dwill

답변

0

마지막 라인 코드 : 토큰 다음은 책의 예입니다. Julius의 제안을 따르고 간단히 변경하면

print(tokens) 

효과가 있습니다. 따라서 ntlk 3.2는 실제로 파이썬 3.5에서 작동합니다. 그거 좋네.

+1

이것은 nltk와 아무 관련이 없습니다. 문제는 대화식 프롬프트에 변수 이름을 쓰면 인쇄되지만 스크립트를 실행할 때는 그렇지 않습니다. – alexis

+0

@alexis 해명 해줘서 고마워. 스크립트로 실행했습니다. – dwill

+0

예, 분명했습니다. 복사 한 예제는 대화식 세션을위한 것입니다. – alexis

관련 문제