corpus

0열

2답변

저는 임상 자연 언어 처리에 대한 연구를하고 있습니다. 문장, 환자 상태, 환자 병력, 임상 용어 등을 포함하는 임상 보고서가 있습니까? http://mtsamples.com/

0열

1답변

문서 소스에서 일련의 텍스트 문서를 가져 오는 데 사용하는 ID (keys.csv) 문서 집합이 있습니다. 필자는 이러한 모든 텍스트 문서를 코사인으로 모아 추가 분석 (예 : 코사인 유사성)을하고 싶습니다. 각 텍스트 문서를 코퍼스에 추가하는 데 아래 코드를 사용하고 있지만 제대로 작동하는지 확신 할 수 없습니다. 이 텍스트 문서로 코퍼스를 만드는 더 좋

0열

1답변

tm 패키지를 사용하여 강제로 조건 생성

5k, 50k, 7.5k, 75k, 10K, 100K와 같은 단어가있는 자료가 있습니다. 그래서 tm 패키지를 사용하여 TDM을 만들 때 10k와 100k와 같은 용어가 별도로 추출됩니다. 그러나 5k와 7.5k는 별도의 용어로 추출되지 않습니다. 이제 구두점 수정 후 "7.5k"가 "75k"용어 아래에 떨어질 수 있지만 "5k"는 어떻게되는지 이해합니다.

1열

2답변

R은 : 문자 벡터에서 통제 어휘를 추출

가정하자 텍스트 데이터는 다음과 같습니다이 voc <- c("peter", "mary", "bob", "red", "green", "blue") 결과가 있어야한다 : txt <- c("peter likes red", "mary likes green", "bob likes blue") 내가이 통제 어휘에서 단어 그 문자열을 줄이고 자 벡터 : c("p

0열

1답변

dataframe 많은 요소 코퍼스 다음 CSV

에 저장 나는 9 개 CSV 파일의 집합을하고 난 가져 오기 및 일부 데이터 전처리을 아래의 명령을 사용 library(tm) filenames <- list.files(getwd(),pattern=”*.txt”) files <- lapply(filenames,readLines) docs <- Corpus(VectorSource(files)) 그런

0열

1답변

regex- CategorizedPlaintextCorpusReader를 사용하여 단어의 n 번째 인스턴스를 찾습니다.

저는 신문의 원본을 원시 텍스트 파일로 가지고 있으며, 나는 그것들에서 사설을 끌어낼 수 있기를 바랍니다. 사설의 대부분은 "대문자"라는 단어의 세 번째 예문 다음에 시작하며, "sfbg"로 끝납니다. 제 아이디어는 python의 정규 표현식을 사용하여 이러한 사설을 추출하는 것입니다. CategorizedPlaintextCorpusReader를 사용하고

2열

2답변

큰 텍스트 자료로 작업 할 때 메모리 오류

큰 파일 (~ 450MB -> 129,000 줄 및 457,000,000 자)이 있는데이 파일을 사용하여 작업하려고하면 Memory Error가 발생합니다. 내 코드는입니다. docDict = {} ind = 1 with open('somefile.txt',encoding='utf-8') as f: for line in f: dat

0열

1답변

NLTK에서 간단한 말뭉치와 꼬리표를 추출하는 방법은?

NLTK은 갈색 코퍼스에 대한 인터페이스와 POS 태그를 가지고 있으며이 같은 액세스 할 수 있습니다 >>> from nltk.corpus import brown >>> brown.tagged_sents() [[(u'The', u'AT'), (u'Fulton', u'NP-TL'), (u'County', u'NN-TL'), (u'Grand', u'JJ-T

0열

1답변

코퍼스 메서드가

저는 R.I.을 (를) 새롭게하려고 약 Corpus() 메서드에 대해 알고 있습니다. 이것은 내가 작성한 코드입니다. library(tm) my_obj<-"learning about corpus method" corp<-Corpus(VectorSource(my_obj)) corp 는이 코드의 출력이 Corpus 방법에 의해 제조되는 구조화 된 텍스

-1열

1답변

분류 된 태그가있는 코퍼스 리더를 만드는 방법

동일한 폴더에 cats.txt에 나열된 파일과 범주가 여러 개 있습니다. 나는 이것을 위해 태그 화 된 판독기를 분류하고 싶다. 내 파일의 모습입니다. nltk에서 여러 가지 방법을 시도해 보았지만 분류 된 태그가 지정된 판독기를 만들지 못했습니다. 내 cats.txt 안에 파일 이름과 카테고리 이름이 공백으로 구분되어 있으며 각 파일 이름에 여러 카테고리