2017-03-13 2 views
3

토큰 화 코드가 매우 복잡하다는 것을 알고 있는데도 코드에서 문장이 분리되는 위치를 찾을 수 없습니다.spaCy 토크 나이저는 문장을 어떻게 분리합니까?

예를 들어, 어떻게 토크 나이 알고 않는

Mr. Smitt stayed at home. He was tired

은 "씨"에 분할해서는 안 "그"전에 나눠 져야합니다.? 그리고 코드에서 "그"가 일어나기 전에 어디에서 분열합니까?

(나는 올바른 장소에서 찾고 있다면 사실, 사실은 확실 확실치 : 나는 tokenizer.pyxsents 검색하면 내가 어떤 사건 찾을 수없는)

+0

이 책을 읽었습니까? https://spacy.io/docs/usage/customizing-tokenizer#how-tokenizer-works –

답변

0

당신은 문서 객체를 통해 분할 액세스를, 발전기의 경우 :

doc.sents 

발전기의 출력은 일련의 범위입니다.

스플릿을 선택하는 방법은 문서가 종속 관계에 대해 파싱됩니다. 파서를 이해하는 것은 쉽지 않습니다. 이해하고 싶다면 그것을 읽어야합니다. 의존 네트워크를 구성하는 방법에 대한 결정을 알리기 위해 신경망을 사용하고 있습니다. 그러나이 분할은 종속성에 의해 교차되지 않는 토큰 사이의 갭입니다. 이것은 단순히 당신이 풀 스톱을 찾는 곳이 아니며 결과적으로 그 방법이 더욱 강력합니다.

관련 문제