POS 태그가 지정된 NLTK corpus의 정규식

NLTK에 POS 태그가 지정된 코퍼스를로드 중이므로 POS 태그와 관련된 특정 패턴을 찾고 싶습니다. 이 패턴은 POS 태그의 다양한 조합을 포함하여 상당히 복잡 할 수 있습니다. 예 입력 문자열 :POS 태그가 지정된 NLTK corpus의 정규식

일부/DT 시간/NN 읽기/NN에 대한 /은/DT 역사/JJ의 중요성 IN/NN/차 IN/NN 의의/한국/VBD 소비

우리/PRP/NNP 및/CC 중국/NNP// RB 맛보기/VBD 가장/JJS 비싼/JJ 녹색/JJ 차/NN I/PRP/VBP ever/RB seen/VBN ./. 이 경우

는 POS 패턴이 같은 : (IN) (THE)? (NNP) (CC)? (NNP) ...

나는 내 신체를로드 해요 : 나는 파이썬의 re 패키지를 사용하여이 작업을 수행 할 수 있습니다, 분명히

reader = TaggedCorpusReader(corpus_dir, r'.*\.pos')

, 이러한 정규 표현식은 다른 개발자를 위해 쉽게 이해하고, 디버그하고, 업데이트하기가 어려워집니다.

NLTK에서 가장 효율적인 방법은 무엇입니까? POS 태그가 지정된 텍스트의 패턴을 일반적인 정규식보다 더 쉽게 읽을 수있는 도우미 함수가 있습니까? 튜플의리스트에 태그 문장을 구문 분석 str2tuple라는 NLTK에서 함수가있다

감사

2013-04-12 Mulone

아마도 예제 문자열을 제공 할 수 있습니까? –

예제를 추가했습니다. – Mulone

는, 당신은 쉽게 별도의 목록에 POS 태그를 추출 할 수 있습니다. 정규식이 필요 없습니다.

2013-04-27 00:50:29 abecadel

답변