NLTK에 POS 태그가 지정된 코퍼스를로드 중이므로 POS 태그와 관련된 특정 패턴을 찾고 싶습니다. 이 패턴은 POS 태그의 다양한 조합을 포함하여 상당히 복잡 할 수 있습니다. 예 입력 문자열 :POS 태그가 지정된 NLTK corpus의 정규식
일부/DT 시간/NN 읽기/NN에 대한 /은/DT 역사/JJ의 중요성 IN/NN/차 IN/NN 의의/한국/VBD 소비우리/PRP/NNP 및/CC 중국/NNP// RB 맛보기/VBD 가장/JJS 비싼/JJ 녹색/JJ 차/NN I/PRP/VBP ever/RB seen/VBN ./. 이 경우
는 POS 패턴이 같은 : (IN) (THE)? (NNP) (CC)? (NNP)
...
나는 내 신체를로드 해요 : 나는 파이썬의 re
패키지를 사용하여이 작업을 수행 할 수 있습니다, 분명히
reader = TaggedCorpusReader(corpus_dir, r'.*\.pos')
, 이러한 정규 표현식은 다른 개발자를 위해 쉽게 이해하고, 디버그하고, 업데이트하기가 어려워집니다.
NLTK에서 가장 효율적인 방법은 무엇입니까? POS 태그가 지정된 텍스트의 패턴을 일반적인 정규식보다 더 쉽게 읽을 수있는 도우미 함수가 있습니까? 튜플의리스트에 태그 문장을 구문 분석 str2tuple라는 NLTK에서 함수가있다
감사
아마도 예제 문자열을 제공 할 수 있습니까? –
예제를 추가했습니다. – Mulone