Project Gutenberg 라이브러리에 액세스하는 데 문제가 있습니다 ... Python 2.7.3을 사용하고 있습니다. NLTK 라이브러리에 액세스하여 파이썬으로 작업 할 수 있지만 원시 텍스트에 액세스하려고하면 허용되지 않습니다.Project Gutenberg 원시 텍스트에 액세스 할 수 없습니다.
내가 접근 한 텍스트는 죄와 벌입니다, 그것은 (원시) 1176831 동일하지만, 대신 나에게 288 여기 의 (원시)는 렌을 제공해야 내가 사용하는 코드입니다 렌 것 :
>>> from __future__ import division
>>> import nltk, re, pprint
>>> from urllib import urlopen
>>> url = "http://www.gutenberg.org/files/2554/2554.txt"
>>> raw = urlopen(url).read()
>>> type(raw)
<type 'str'>
>>> len(raw)
288
>>> raw
'<!DOCTYPE HTML PUBLIC "-//IETF//DTD HTML 2.0//EN">\n<html><head>\n<title>403 Forbidden</title>\n</head><body>\n<h1>Forbidden</h1>\n<p>You don\'t have permission to access /files/2554/2554.txt\non this server.</p>\n<hr>\n<address>Apache Server at www.gutenberg.org Port 80</address>\n</body></html>\n'
>>>
정말 고맙습니다. 감사. – user1799092