-1
내가 짧은 질문이 예상대로 작동하지 않습니다 : 나는NLTK의 regexp_tokenizer는
[u'lala/yaya']
나는 생각했다
nltk.regexp_tokenize("lala/yaya", r"\w+(['[email protected]&]\w+)*" )
할
pattern = r"\w+(['[email protected]&]\w+)*"
및
나는 뭔가를 놓친다. \ w는 영숫자와 일치하며 ', -, @ 및 &을 포함합니다. 그 사이의 "/"가 어떻게 일치 할 수 있습니까?
출력이 "lala", "yaya"여야한다고 생각합니다.
누구든지 설명 할 수 있습니까? 매우 감사합니다.
변화 하이픈의 위치 '[-'@ &]'또는'[ '@ 및 -]'또는'['\ - & @]' –