토큰 화 코드가 매우 복잡하다는 것을 알고 있는데도 코드에서 문장이 분리되는 위치를 찾을 수 없습니다.spaCy 토크 나이저는 문장을 어떻게 분리합니까?
예를 들어, 어떻게 토크 나이 알고 않는
Mr. Smitt stayed at home. He was tired
은 "씨"에 분할해서는 안 "그"전에 나눠 져야합니다.? 그리고 코드에서 "그"가 일어나기 전에 어디에서 분열합니까?
(나는 올바른 장소에서 찾고 있다면 사실, 사실은 확실 확실치 : 나는 tokenizer.pyx
에 sents
검색하면 내가 어떤 사건 찾을 수없는)
이 책을 읽었습니까? https://spacy.io/docs/usage/customizing-tokenizer#how-tokenizer-works –