tokenize

2열

1답변

현재 공백을 발견 할 때마다 문장을 토큰 화하는 OpenNLP의 공백 토큰 화 도구를 사용하고 있습니다. 내가 좋아하는 문장이있는 경우 그래서, : 그 문장의 취미를 얻으려면 지금 My hobbies are reading books, magazines, Roller skating and playing football. 을 나는하지 공백의 기초하지만 쉼표

1열

2답변

Lucene의 StandardTokenizer를 사용할 때 구두점 문자 유지

Lucene의 StandardTokenizer을 비 IR 환경에서 단어 토큰 화에 활용할 생각입니다. 이 토크 나이저는 구두점 문자를 제거합니다. 아무도 별도의 토큰으로 구두점 문자를 출력한다는 것을 알고 있습니까? 현재 동작의 예 : 원하는 동작의 Welcome, Dr. Chasuble! => Welcome Dr. Chasuble 예 : Welcome

1열

1답변

내 벡터가 비어있는 이유는 무엇입니까?

간단한 반전 된 색인을 만들고 싶습니다. 각 문서에있는 docId와 키워드가있는 파일이 있습니다. 첫 번째 단계는 파일을 읽고 텍스트 파일을 토큰 화하는 것입니다. 온라인으로 작동하는 tokenize 함수를 발견하고 조금 변경했습니다. 나는 공백 뒤에 각 단어를 토큰 화하고 싶다. 내 텍스트 파일에는 쉼표 나 마침표가 없습니다. 텍스트 파일을 토큰 화 한

-1열

1답변

C 소스 코드의 토큰 화 된 출력

토큰 화 된 출력을 내 C 소스 코드에서보고 싶습니다. cpp 프로세서는 먼저 cpp-directive를 처리 한 다음 c 소스 코드를 토큰 화합니다. 그런 다음이 토큰 된 출력이 구문 분석됩니다. 그 어셈블러가 작업을 수행 한 후에 프로세스가 계속됩니다. 플렉스를 사용하여 토크 나이저를 작성했습니다. 나는 단지 gcc 컴파일러가 c 소스 코드를 토큰 화하

-1열

1답변

XSLT로 문장으로 토큰 화하는 방법

다음 문제로 인해 XSLT에 대한 지식이 한계에 다다 랐습니다. <?xml version="1.0" encoding="UTF-8"?> <root> <p> <w>This</w> <w>is</w> <w>a</w> <w>sentence</w> <w>with</w> <w>a</w> <entity t

0열

2답변

스캐너마다 한 줄에 여러 개의 토큰을 사용하는 것이 더 좋은 방법일까요?

키, 공백, 숫자 및 개행으로 구성된 줄이있는 파일을 구문 분석하려고합니다. 내 코드는 작동하지만 나에게 올바르게 냄새를 맡지 않습니다. 스캐너를 사용하는 더 좋은 방법이 있습니까? 특히, for-loop 내부에 Scan()을 사용하지 않는 것이 좋습니다. func TestScanner(t *testing.T) { const input = `key

1열

1답변

검색 토큰 색상

bootstrap 검색 field+tokeninput을 사용하고 있습니다. 다른 색상의 토큰을 얻고 각 토큰에 id을 추가하려고합니다. 나는이 부트 스트랩 검색 필드 사용하고 있습니다 : 모든 것이 잘 작동, See the source for bootstrap-tokenfield tokeninput <input type="text" id="exampleIn

1열

2답변

문자열의 기호 식별

간단한 DSL을 구현하고 있습니다. 나는 다음과 같은 입력 문자열이 있습니다 txt = 'Hi, my name is <<name>>. I was born in <<city>>.' 을 그리고 난 다음 데이터가 : def tokenize(txt): ... return fmt, vars 내가 얻을 : 을 { 'name': 'Jo

-1열

3답변

문장 목록에서 토큰을 만들 때 단어 대신 문자가 반환됩니다.

from nltk.tokenize import sent_tokenize text = open(path).read().lower().decode("utf8") sent_tokenize_list = sent_tokenize(text) tokens = [w for w in itertools.chain(*[sent for sent in sent_token

0열

1답변

Solr StandardTokenizer가 잘못된 번호를 만듭니다.

Solr 코어 및 StandardTokenizerFactory에 문제가 있습니다. 숫자 크기를 만들어야하지만 StandardTokenizer가 잘못된 숫자를 만듭니다. "spanplattenschraube 4,5 50"을 찾고 있습니다. 내 SOLR 관리 분석에서 는 토큰 화 "(50)는" 그래서 첫 번째 결과로 나는 문서를 얻을, 숫자 "4.0", "4.