tokenize

    -1

    2답변

    으로 동일한 항목을 인덱싱 나는 토큰의 무리의 목록을 가지고 있고이 목록입니다 : [u'the', u'word', u'on', u'the', u'breeze', u'and', u'through', u'the', u'floor', u'deafblind', u'people', u"aren't", u'affected', u'by', u'things', u'tha

    1

    1답변

    에 공백이 무너지고, 나는 HIDDEN 채널로 전송되는 공백 토큰이 있습니다 SP : [ \u00A0\u000B\t\r\n] -> channel(HIDDEN); 내가 TokenStream#getText(Context)에 숨겨진 토큰을 포함하여 구문 분석 규칙의 텍스트를 얻을 수 있다는 사실을 알고 . 나는 그것을 부를 때 모든 공백을 붕괴시키고 싶습니다

    1

    1답변

    작업 설명의 급여가 75 백분위 수 (1보다 작고 0보다 작은 지)를 예측하는 모델을 만들려고합니다. 데이터에 약 250,000 개의 행과 그 매우 작업 설명에서 모든 텍스트를 토큰 화하기가 어렵습니다. 내 코드는 잘 작동하는 것처럼 보이지만 100 행 이상으로 실행하려면 시간이 많이 걸립니다. 내 예측에 더 많은 행을 포함 할 수 있도록 더 효율적으로 만

    1

    1답변

    위키피디아의 기사를 문장으로 토큰화할 때 NLTK를 사용하고 있습니다. 그러나 etc.이 나타나면 문장이 토큰 화되는 것과 같은 문제가 발생하거나 ['as they say "harry is a good boy.', '" He thinks']과 같이 두 번 거꾸로 표시된 쉼표가 텍스트에 나타날 때 문제가 발생하므로 punkt tokenizer는 매우 좋은 결

    0

    1답변

    이 값과 같은 문자열이 있습니다. 1,234,1,2,8. 내가 필요한 것은 가치 1과 234,1,2,8 인 조각으로 나누는 것입니다. 나는 네가 폭발 할 수는 있지만, 쉼표가있는 모든 것을 깨뜨릴 것이다. PHP에서 가장 좋은 솔루션은 무엇입니까?

    1

    1답변

    <Type><values>의 <attribute> 요소 중 일부는 <comparison><ComparsionList>에 연결된 <condition> 요소가 있습니다. 개체와 제목을 비교하고 출력을 얻을 수 있었지만 다른 값에 의존하는 조건이있을 때 원하는 출력을 출력 할 수 없었습니다. 여기 내 XML을 입력 : 여기 <Types xmlns:p="foo">

    2

    3답변

    데이터 프레임의 문자열 리터럴을 열 집합으로 분할하는 빠르고 효율적인 방법이 필요합니다. 이제 나는이 데이터 프레임 있다고 가정 해 봅시다 data <- data.frame(id=c(1,2,3), tok1=c("a, b, c", "a, a, d", "b, d, e"), tok2=c("alpha|bravo", "alpha|charlie", "tango|tan

    1

    2답변

    배열에 "----"(모스 부호)와 같은 문자열이 있고 각 문자열을 토큰 화하여 각 점 (.)과 대시 (-)를 가져 오려고합니다. 내 코드의 일부가 아래와 같습니다 : 코드 배열이있을 때 char *code, *token; char x; char ch[4096]; code = &ch[0]; .. while((x = t

    0

    1답변

    을에 나는 클래스 이름 등 예를 들어, 문서가 포함 된 경우를 포함하여 다른 것들 사이에, 검색 할 루씬을 내장 응용 프로그램, 스택 추적의 부품을 쓰고 있어요 : 을 java.lang.NullPointerException 문서에는 일반 영어 텍스트도 포함될 수 있습니다. NullPointerException 또는 java.lang.NullPointerEx

    0

    1답변

    langutils 라이브러리 (Quicklisp을 사용하여 다운로드 한)를 사용하여 문자열을 토큰 화하려고 시도했지만 SBCL을 사용하고 있지만 몇 가지 문제가있었습니다. 문제. 나는 다음과 같은 코드를 사용하기 위해 노력했습니다 : 출력과 (cl-utilities:split-sequence #\Space (multiple-value-call #'(lamb