nlp

1열

1답변

반복 NN : 매개 변수 공유의 요점은 무엇입니까? 어쨌든 패딩을하지 않습니까?

방금 RNN과 LSTM을 연구하기 시작했습니다. 내가 훑어 본 모든 자원에 대해 하나의 질문에 답을 얻지 못했습니다 : 다음은 RNN에서 매개 변수 공유의 요점을 이해하는 방법입니다. 내 질문은 다음과 같습니다. 아래에 요약 된대로 RNN을 이해하고 있습니까? Keras의 실제 코드 예제에서 LSTM을 살펴 보았지만, 문장은 모두 길이가 같도록 문장을

1열

1답변

추후 kNN 출력을 위해 tensorflow의 word2vec를 text/binary 파일로 저장하는 방법은 무엇입니까?

나는 tensorflow에서 word2vec 모델을 훈련 시켰습니다. 그러나 세션을 저장하면 model.ckpt.data/.index/.meta 개의 파일 만 출력됩니다. 가장 가까운 단어를 검색 할 때 KNN 방법을 구현할 생각이었습니다. 나는 gensim을 사용하는 것에 대한 해답을 보았지만, 어떻게 텐 플러 플로우 word2vec 모델을 .txt에 먼

0열

2답변

문서에서 콘텐츠 추출

NLP를 통해 기술, 인증, 취업 경험 등과 같은 다양한 섹션을 가진 이력서에서 해당 콘텐츠를 추출하고 해당 카테고리별로 태그를 추가하려고합니다. 다양한 문장 부호로 텍스트를 추출하는 기본 규칙을 작성할 수는 있지만 어떤 경우에는 작동하지 않을 수도 있습니다. 이 경우 Automatic segmentation 도움이 될 것입니다. 이 문제를 해결하기위한 적

0열

1답변

Python Nlp 라이브러리 Spacy를 Windows에 설치

나는 spacy 문서에 깊은 인상을 받았지만 Windows 7 32 비트 OS에 설치하는 데 어려움을 겪고 있습니다 ... 나는 아나콘다와 pip에서 설치를 시도했습니다 ... ... 또한 내가 지원되지 않는 메시지를 받았습니다 cymem-1.31.2-cp27-cp27m-는 Win32를 휠 파일을 설치하는 동안 또한 .... https://www.lfd.u

1열

1답변

파이썬에서 포스트 태그 패턴을 확인하십시오.

주어진 단어 구가 NN으로 구성되어 있는지 확인하고 싶습니다. 모두가 NN이면 count 값이 증가합니다. 예를 들어, 내 워드 프레이즈가 [('micro', 'NN'), ('blog', 'NN'), ('texts', 'NN')] 인 경우, 해당 단어 수가 1 씩 증가해야합니다. 현재 코드는 다음과 같습니다. w='micro blog texts' post

0열

1답변

gensim doc2vec 결정되지 않은 결과 표시

gensim python 라이브러리에서 Doc2Vec 모델을 사용하고 있습니다. 동일한 문장 데이터로 모델을 공급하고 매개 변수 : Doc2Vec의 시드를 고정 된 숫자로 설정할 때마다 모델은 모델을 만든 후에 다른 벡터를 제공합니다. 테스트 목적으로, 나는 변경되지 않은 입력 데이터를 줄 때마다 결정된 결과가 필요합니다. 나는 많은 것을 검색했고 gens

-1열

1답변

Python 3에서 정규식 하위 함수에 문제가 있음

웹 사이트에서 다운로드하고 BeautifulSoup를 사용하여 구문 분석 한 텍스트에서 \ x92, \ xa0 등의 기호를 제거하려고합니다. 그럼 내가 어디서나이 기호 (인코딩)를 가지고있는 것을 알 수 있습니다. 나는 txt에서 이러한 기호를 제거하기 위해 re.sub(r'[^\x00-x7F]',' ',txt) 을 사용하고 있지만, 나는 각각 y을 잃어버

0열

1답변

keras.preprocessing.text에서 Tokenizer를 사용하는 동안 메모리가 부족합니다.

keras를 사용하여 문장을 분류하는 RNN 모델을 작성하고 싶습니다. 나는 다음과 같은 코드를 시도 : docs = [] with open('all_dga.txt', 'r') as f: for line in f.readlines(): dga_domain, _ = line.split(' ') docs.append(dga_do

2열

1답변

Doc2vec : model.docvecs는 길이 10

나는 문장의 600,000 행에 대해 doc2vec하려이며 내 코드는 다음과 같습니다 : model = gensim.models.doc2vec.Doc2Vec(size= 100, min_count = 5,window=4, iter = 50, workers=cores) model.build_vocab(res) model.train(res, total_exa

1열

1답변

Doc2vec : 결과 벡터를 클러스터링

doc2vec 모델에서 벡터 자체를 클러스터링 할 수 있습니까? 우리는 각 결과 model.docvecs[1] 벡터를 클러스터해야할까요? 클러스터링 모델을 구현하는 방법은 무엇입니까? model = gensim.models.doc2vec.Doc2Vec(size= 100, min_count = 5,window=4, iter = 50, workers=cores