corpus

5열

1답변

우리가 사용하는 모든 NLTK 데이터를 다운로드 할 수 있습니다 다운 UI없이 명령 줄에서 corpara 제외한 모든 NLTK 데이터를 다운로드 > nltk.download('punkt') > nltk.download('maxent_treebank_pos_tagger') 그러나 나는 모든 다운로드하려는 예를 들어, 'corpara'파일을 제외한 데이터

6열

1답변

R에서의 Wordcloud + corpus 오류

트위터 데이터에 클라우드를 수행하는 데 Wordcloud 기능을 사용하고 싶습니다. 트위터 패키지를 설치하고 API로 작업했습니다. 그 후에 나는 다음과 같이한다. bigdata <- searchTwitter("#bigdata", n=20) bigdata_list <- sapply(bigdata, function(x) x$getText()) bigda

12열

3답변

TermDocumentMatrix에서 오류가 발생했습니다.

R에서 {tm} 패키지의 수많은 온라인 예제를 통해 TermDocumentMatrix를 만들려고했습니다. 코퍼스를 생성하고 정리하는 작업은 매우 간단하지만 행렬을 만들 때 일관되게 오류가 발생합니다. 오류 : UseMethod에서 오류 ("메타", x)를 '메타'에 대한 적용 방법은 클래스 "문자"또한 의 객체에 적용되지 : 경고 메시지 : 를 mclapp

0열

1답변

Concept-Insights 공용 코퍼 사용 권한을 사용합니다.

공용 코퍼스/WOZIMA를 만들었습니다. 내가 만들 때 사용한 자격 증명을 사용하지 않으면 그 중에서 어떤 JSON도 가져올 수 없습니다. 새 서비스를 만들고 해당 자격 증명을 사용하면 아무 것도 반환하지 않습니다. 불행하게도 나는 오류 얻을 나는이 코퍼스에 권한 문제입니다 생각, 그래서 이제 CURL 명령 curl -u user:pass -X POST -

2열

1답변

Syntaxnet을 사용하여 코퍼스에 주석 달기

Syntaxnet을 사용하여 코퍼스에 주석을 추가하려고합니다. 내가 얻고 ./demo.sh --input=input_file --output=output_file : input { name: 'input_file' record_format: 'english-text' Part { file_pattern: '/home/melvyn/text.txt'

1열

1답변

상호 정보 : 우발 치 테이블 형식의 계산 예 (Java)

큰 데이터 집합에서 얻은 단어 - 빈도를 사용하여 단어가 공존하는 빈도를 계산하기 위해 점 상호 정보 (PMI) 연관 측정을 사용합니다. 내가 log(P(X,Y)/(P(X)*P(Y)) 의 고전적인 공식을 통해 PMI를 계산하고 내가 http://collocations.de/AM/index.html 내가 얻는 결과에 발견 joint-와 한계 주파수와 비상

2열

1답변

AttributeError : 'ParentedTree'객체에 'label'속성이 없습니다.

기본적으로 파싱 된 트리를 작업하고 비어있는 카테고리 (빈 노드 주석)를 지배하는 트리 노드에 주석을 추가하려고합니다. 다음과 같이 recurvsive 함수를 정의했지만 "AttributeError : 'ParentedTree'객체에 'label'속성이 없습니다."라는 오류가 발생합니다. def annotateTraceNodes(node): numChil

3열

1답변

NLTK와 Python에서 분류 된 코퍼스 리더를 설정해야합니다. 하나의 파일에 코퍼스 텍스트가 한 줄에 하나씩 있습니다.

Jacob Perkins의 저서 "Python Text Processing with NLTK 2.0 Cookbook"의 NLTK 및 텍스트 분류에 익숙해졌습니다. 내 코퍼스 문서/텍스트는 각각 텍스트 단락으로 구성되어 있으므로 각 텍스트는 별도의 파일이 아니라 별도의 파일 행에 있습니다. 그러한 단락/줄의 수는 약 2 백만개입니다. 따라서 기계 학습 인스턴

0열

1답변

어떻게 R의 TM 패키지의 PCorpus에 다시 연결하려면?

나는 다음과 같은 코드로, 지금까지의 내가 이해 HDD에 저장된 PCorpus를 만들 : pc = PCorpus(vs, readerControl = list(language = "pl"), dbControl = list(dbName = "pcorpus", dbType = "DB1")) 나중에 해당 데이터베이스에 다시 연결 수있는 방법 ?

0열

2답변

레이블의 숫자 범위를 포함하는 다중 레이블 분류

내 레이블의 등급이 0 - 100이고 1 단위로 증가하는 분류 문제가 있습니다 (예 : 1, 2, 3, 4). 나는 각 행에 이름, 텍스트 코퍼스 및 등급 (0 - 100)이있는 데이터 세트가 있습니다. 텍스트 코퍼스에서 분류기에 입력 할 수있는 기능을 추출하려고합니다.이 분류기는 행 (0 - 100)에 해당 등급을 출력합니다. 기능 선택을 위해 기본 단어