gensim
라이브러리에서
Doc2Vec
모델을 학습하고 다음과 같이 사용하고
:Gensim Doc2Vec 예외 AttributeError는 'STR'객체가 어떤 속성의 말씀 없다 '
class MyTaggedDocument(object):
def __init__(self, dirname):
self.dirname = dirname
def __iter__(self):
for fname in os.listdir(self.dirname):
with open(os.path.join(self.dirname, fname),encoding='utf-8') as fin:
print(fname)
for item_no, sentence in enumerate(fin):
yield LabeledSentence([w for w in sentence.lower().split() if w in stopwords.words('english')], [fname.split('.')[0].strip() + '_%s' % item_no])
sentences = MyTaggedDocument(dirname)
model = Doc2Vec(sentences,min_count=2, window=10, size=300, sample=1e-4, negative=5, workers=7)
입력 dirname
이 들어있는 디렉토리 경로입니다 단순함을 위해 각 파일에 100 개 이상의 회선이 포함 된 2 개의 파일 만 있습니다. 나는 예외를 따르고있다.
또한, print
문을 나는 반복자가 디렉토리에 6 번 이상 반복 것을 볼 수 있었다. 이게 왜 그렇게?
모든 종류의 도움을 주시면 감사하겠습니다.
불행히도 정지 단어가 없으면 한 가지를 원하십니까? 지금 문장은 불용어 만 포함합니다. – datawrestler
예. 실수입니다. 문제를 해결했지만 여전히 똑같은 문제가 계속됩니다. –