2016-11-10 1 views
-1

동일한 폴더에 cats.txt에 나열된 파일과 범주가 여러 개 있습니다. 나는 이것을 위해 태그 화 된 판독기를 분류하고 싶다. enter image description here분류 된 태그가있는 코퍼스 리더를 만드는 방법

내 파일의 모습입니다.

nltk에서 여러 가지 방법을 시도해 보았지만 분류 된 태그가 지정된 판독기를 만들지 못했습니다. 내 cats.txt 안에 파일 이름과 카테고리 이름이 공백으로 구분되어 있으며 각 파일 이름에 여러 카테고리가있을 수 있습니다. 예를 들어

:
mail_1_adapter 어댑터
mail_1_alert 경고
messagebody_24862499 다른
등 ...

당신이 나에게 내 신체를 만들고 우리를 만들 수있는 더 나은 방법을 보여 주시겠습니까 그것.

답변

2

파일 형식은 정상입니다. 얼마나 정확하게 독자를 만들려고했으나 제대로 작동하지 않았습니까? 당신은 당신의 코드를 보여주지 않으므로, 당신이 잘못하고 있다는 것을 말하지 않습니다. 당신은 당신의 독자에게 파일 cats.txt에서 카테고리를 읽어야한다고 말해야합니다. 같은 :

from nltk.corpus.reader import CategorizedTaggedCorpusReader 
reader = CategorizedTaggedCorpusReader(<path>, r"^[^.]*$", cat_file="cats.txt") 

귀하의 범주 cats.txt는 신체의 일부가 아닌 파일, 그래서 나는 모든 점을 포함하지 않는 일치하는 정규 표현식 ^[^.]*$을 사용했다. 여기에 파일에 대한 설명이 올바르지 않으면 모든 자료 파일을 포함하도록 필요에 따라 정의를 변경하고 cats.txt은 제외하십시오.

+0

corpus_root = "C :/사용자/nkumarn/PycharmProjects/taggedcorpus/' ___________________________________ 리더 = CategorizedTaggedCorpusReader (corpus_root, R, cat_file = R'* \ 파일.. ''* \ TXT.. ') 이 내가 한 일이야. 그것은 작동하지 않았다. –

+1

글쎄, 놀랄 일이 아니 었어. 'cat_file'은 정규 표현식이 아닌 파일 이름 (경로 포함)이어야합니다. 그리고 정말로'r '. * \. File''을 파일 패턴으로 작성 했습니까? 다음 번에 질문에 포함 된 코드와 오류를 포함 시키십시오. 그러한 게으른 질문을 쓰는 것을 중단하십시오, 이것은 내가 개선을 권고 한 첫 번째 질문이 아닙니다. – alexis

+0

예. 알겠습니다. 고맙습니다 .... 필자는 질문 기준을 확실히 개선 할 것입니다. 조언 해 주셔서 감사합니다. –

관련 문제