nlp

2열

2답변

오후는 pm (시간)을 의미 할 수 있지만 총리를 의미 할 수도 있습니다. 후자를 캡처하고 싶습니다. 나는 PM의 보조 정리가 총리에게 돌아 가기를 바란다. 어떻게 spacy를 사용하여 이것을 할 수 있습니까? 예 복귀 예기치 표제어 : 문서 https://spacy.io/api/annotation으로 당 >>> import spacy >>> #nlp =

0열

1답변

공백/구분 기호없이 알파벳/문자열을 사전 단어로 분리하는 방법은 무엇입니까?

두 개 이상의 사전 영어 단어로 구성된 문자열이 있지만 단어 사이의 공백이 없습니다. R이나 파이썬에서 단어를 어떻게 분리 할 수 있습니까? 예 : Input_string = "thequickbrownfox" Desired_output_string = "the quick brown fox" 텍스트 처리를 할 수있는 알고리즘이 있습니까?

1열

1답변

SpaCy의 PhraseMatcher를 사용하여 여러 일치 유형 찾기

SpaCy 문서 및 샘플은 PhraseMatcher 클래스가 문서의 토큰 시퀀스를 일치시키는 데 유용함을 보여줍니다. 일치시킬 시퀀스의 어휘를 제공해야합니다. 내 응용 프로그램에는 토큰 및 구문 모음 인 문서가 있습니다. 다른 유형의 엔티티가 있습니다. 데이터는 원격으로 자연어입니다 (문서는 오히려 세미 임의 순서의 키워드 집합입니다). 여러 유형의 일치

1열

1답변

단어 유사성을 위해 단어 삽입이 어떻게 작동합니까?

비슷한 문장을 찾기 위해 word2vec/doc2vec를 적용하려고합니다. 먼저 단어 유사성에 대한 word2vec를 고려하십시오. 내가 이해하는 바는 CBOW를 사용하면 컨텍스트에서 가장 적합한 단어를 찾을 수 있지만 Skip-gram은 주어진 단어의 컨텍스트를 찾는 데 사용되므로 두 경우 모두 자주 발생하는 단어를 얻게됩니다. 그러나 유사한 단어를 찾는

0열

1답변

내가 우분투에 SyntaxNet를 설치하기 위해 노력하고있어 설치 지침

를 수행 한 후에도 기본 TensorFlow 런타임을로드하지 못했습니다, 나는 우분투 16.10+ 바이너리 설치 지침 here을 따랐다. 내가 마지막 명령을 실행하면 : python -c 'import dragnn.python.load_dragnn_cc_impl, syntaxnet.load_parser_ops' 을 나는 오류 메시지가 아래의 긴 줄 수

2열

1답변

파이썬에서 토큰 화 된 텍스트에서 다 단어 용어 찾기

나는 토큰 화 된 텍스트가 있거나 일반적으로 단어 목록도 괜찮습니다. 예를 들어 : >>> from nltk.tokenize import word_tokenize >>> s = '''Good muffins cost $3.88\nin New York. Please buy me ... two of them.\n\nThanks.'''

0열

1답변

TFRecords 파일을 사용한 텍스트 전처리

해당 레이블이 '0'또는 '1'(스팸/비 스팸 인 경우) 인 .tfrecord 데이터 세트의 텍스트 문서 (전자 메일)가 있습니다. 이 모든 데이터 세트는 이미 .tfrecord 파일 형식입니다. 전자 메일을 말로 표현하려고합니다. 나는 그것을 돕는 모든 도우미 방법을 가지고 있지만, 나는 여전히 tfrecords에 익숙하지 않다. def read_from

0열

1답변

스탠튼 - nlp 소프트웨어로 싱글 톤 언급을 할 수 있습니까?

우리는 stanford-nlp coref 어노 테이터를 사용하여 데이터의 멘션을 탐지하려고합니다. coref 어노 테이터는 기본적으로 싱글 튼 체인 (즉, 하나의 언급이있는 체인)을 생성하지 않는 것으로 보입니다. 결과 주석이 non-singleton 기호 이외에 signleton chain을 포함하도록 주석자를 구성 할 수 있습니까? 감사합니다.

0열

1답변

판다에서 계수 된 희소 한 데이터 프레임에서 소수의 열을 제거하는 방법

나는 계수 된 데이터 프레임 안에 약 2000 개의 텍스트 기능이 있습니다. 예측 모델에 대한 실제 기능 중요성 기여도가있는 800 개의 텍스트 기능 열 목록이 있습니다. 나는이 800 열만 유지하고 나머지는 1200 컬럼을 제거하기를 원합니다. 왜냐하면 그것이 내 예측에 크게 기여하지 않기 때문입니다. 어떻게 할 수 있습니까? 나는 텍스트 파일에서 관리

0열

1답변

언어 화 문제 (nltk)

다음과 같이 nltk lemmatizer를 사용하고 있습니다. from nltk.stem import WordNetLemmatizer lemmatizer = WordNetLemmatizer() mystring = "the sand rock needed to be mixed and shaked well before using it for construct