nlp

    0

    1답변

    에서 토큰 화 된 문장에서 명명 된 개체를 찾을 수 내가 지금까지했던 : nlp = spacy.load('en') sentence = "Germany and U.S.A are popular countries. I am going to gym tonight" sentence = nlp(sentence) tokenized_sentences = [] fo

    0

    1답변

    word2vec 알고리즘을 사용하여 만든 두 가지 단어 벡터 모델이 있습니다. 지금 나는 직면하고있는 문제는 첫 번째 모델의 몇 마디가 두 번째 모델에 없다는 것입니다. 나는 단어 벡터의 의미와 맥락을 잃지 않고 두 모델의 단어 벡터를 사용할 수있는 두 가지 다른 단어 벡터 모델로 세 번째 모델을 만들고 싶습니다. 나는 이것을 할 수 있습니까? 그렇다면 어

    0

    2답변

    AGENDA ITEM 당 페이지 수를 계산해야합니다. 필자는 pdf 문서의 텍스트를 데이터 프레임으로 추출했습니다. 기본적으로이 데이터 프레임의 한 행에는 한 페이지의 텍스트가 들어 있습니다. 이것은 나의 데이터가 같은 모습입니다 : 의제 TEXT (동일 행)에서 mydf <- data.frame(text = c("AGENDA ITEM 1 4",

    0

    1답변

    나는이 paper을 기반으로 텍스트 분류를 위해 CNN 모델을 구현했습니다. CNN은 크기가 고정 된 문장만을 처리 할 수 ​​있으므로 입력의 크기를 데이터 집합의 최대 문장 길이로 설정하고 짧은 문장을 0으로 설정합니다. 하지만 필자의 이해를 돕기 위해, 입력 문장의 길이는 상관없이 최대 풀링 전략은 항상 각 필터 맵에 대해 하나의 값만 추출합니다. 따라

    0

    1답변

    그래서 나는 (POS는 정확하게는 태그)과 같이 목록에서 단어의 무리에 태그를 시도하고 있었다 그것은 [['hello'],['world']] (각 목록은 하나 개의 단어를 포함하는 목록 일명 목록)처럼하지만 난 시도하고 그것을 실행할 때 내가 얻을 : Traceback (most recent call last): File "<pyshell#183>

    0

    1답변

    difflib를 사용하여 두 문자열 사이의 문자 차이를 확인하는 방법에 관한 많은 스레드가 있지만 특히 단어 삭제 및 두 문자열 사이에 추가 할 수있는 방법이나 모듈이 있는지 알고 싶습니다. 예를 들어 , 우리는 내가 "이"을 "은"포함하는 목록을 반환 deleted_words(foo, bar) 의 라인을 따라 기능이 있는지 알고 싶습니다 foo = '

    1

    1답변

    spaCy에서 형태소 분석 및 문자 화 후에 단어가 정지 단어인지 확인하는 방법은 무엇입니까? 이 경우에는 something 문장 s = "something good\nsomethings 2 bad" 가정하면 중지 단어이다. 분명히 (나에게?) Something과 somethings도 불어가되지만, 전에는 줄기가 있어야합니다. 다음 스크립트는 첫 번째

    0

    1답변

    동일한 문자열을 동일한 중요한 단어와 일치시키고 싶습니다. 문제 : 나는 두 개의 파일이 하나 개의 마스터와 하나 개의 입력 파일이 있습니다. 나는 입력 파일을 반복하고 master에서 유사한 레코드를 찾아야한다. 현재 ElasticSearch에서 마스터 파일의 색인을 생성하고 ElasticSearch에서 유사한 레코드를 가져 오려고했지만 마스터에 많은 유

    0

    1답변

    이 목표는 각각에 정수 값이 할당 된 잠재적 단어 사전을 제공하며 코드는 색인과 값을 추가 한 다음 임의의 숫자를 생성하는 별도의 목록을 작성합니다. 그런 다음 난수에서 목록으로 이동하여 그보다 더 큰 첫 번째 값을 선택합니다. 그런 다음 누적 값이 해당하는 단어를 반환합니다. i = 0 cumulative = [] for self.nGramCounts

    0

    1답변

    약 3000 개의 문서에서 구조화되지 않은 텍스트 데이터를 추출했으며이 데이터를이 문서를 분류하는 데 사용하려고합니다. 그러나 정지 문자 &을 제거하고 데이터를 lemmatize 한 후에도 카운트 벡터화는 64000 개 이상의 피쳐를 생성합니다. 이러한 많은 기능에는 임의의 숫자와 같은 불필요한 토큰이나 다른 언어의 텍스트가 들어 있습니다. 내가 사용하고