2012-03-14 3 views
0

문장에서 태그를 제거 할 수 있습니까? 하나는 파일을 스캔하여 태그를 찾아 제거하는 작업을 수행 할 수 있지만 태그가 많기 때문에 (일부 모델은 30+ 이상, 일부는 48-50, 기본적으로는 penn treebank pos tags을 따릅니다.) 빠르고 멋진 방법이 있습니다. 보다 효율적인 방법으로 태그를 제거 하시겠습니까? API를 확인했지만 태그를 삭제할 수있는 방법이 없습니다.POS tagger의 태그 제거

+0

예제로 원하는 것을 설명 할 수 있습니까? POS 태그를 원하지 않는다면 POS tagger를 사용하지 마십시오. –

+0

다음에 나타나는 태그를 기반으로 파일에 특정 조건을 적용하고 싶습니다. 각 단어에. 그 후에 변경된 파일에서 태그가 나타나기를 원하지는 않을 것이며 사용자에게 전혀 유용하지 않으며 사용자가 싫어할 것입니다. 그래서 태그를 제거하고 싶습니다. 나는 이것을 해결하기위한 방법을 찾았으나 위에서 설명한대로 간단하지는 않다. 원본 문서와 태그가있는 문서를 동시에 스캔해야한다.하지만 태그를 제거하는 더 간단한 방법이 있다는 것이 궁금했습니다. :-) –

답변

1

출력물에는 단어와 태그가 모두 포함되어 있으므로 원본 문서를 다시 스캔해야하는 이유가 확실하지 않습니다. 공백까지 마지막 tagSeparator 문자 ('/'또는 기타)를 삭제하여 태그를 삭제할 수 없습니까? 또는, 그런 다음 첫 번째 열에서 단어와 두 번째 열에서 태그를 두 개의 열 출력을 얻을 것이다

-outputFormat tsv 

를 사용하는 것이 더 간단 할 수 있으며, 완료되면 당신은 첫 번째 열을 유지할 수 있습니다.