2011-05-09 5 views

답변

8

펜 트리 뱅크 (Penn Treebank) 태그 세트에 따르면, 안녕하세요은 분명히 개작이며 일관되게 UH로 태그가 지정됩니다. 당신이 겪고있는 문제는 NLTK가 제공하는 태거가 Penn Treebank의 월스트리트 저널 섹션에 무료로 제공되는 훈련을 받았을 가능성이 가장 높다는 것입니다. 불행하게도이 단어는 0 번 발생합니다. 안녕하세요 및 UH (interjection)로 태그 된 세 단어 만 포함됩니다. 구어 텍스트에 태그를 지정하려면 300 만 단어의 구어체 단어가 포함 된 Penn Treebank 전체에서 태그 작성자를 교육해야합니다.

그런데 NLTK 태거가 항상 을 호출하지는 않습니다. 안녕하세요 "do not hello me!"라고 태그를 달아보세요. 또는 "그는 인사했다".

+0

감사합니다! 이제 알았어. –

2

NLTK 음성의 한 부분에 태그를 자신의 술래를 사용합니다.

하지만 정확도는 텍스트마다 다릅니다. 왜냐하면 NLTK 자체가 제공하는 코퍼스를 사용하여 태거가 훈련 되었기 때문입니다. 코퍼스는 뭐든지 될 수 있습니다.

코퍼스는 텍스트와 유사하지 않으므로 컨텍스트, 스타일이 모두 매우 다르기 때문에 태그 지정자가 텍스트에 태그를 지정하지 못합니다.

당신이 할 수있는 경우에 당신은 당신의 자신의 tagger를 훈련시킬 수 있습니다.

컴퓨터는 사람이 아니며 컴퓨터는 우리가 말한대로합니다. 따라서 제대로하기 위해서는 최상의 결과를 얻기 위해 제대로 가르쳐야합니다.

+0

기본 태그 지정자가 명사로 여겨지는 곳을 알려줄 수 있습니까? 당신은 알고 계십니까? 나는 그것이 놀랍다. 왜냐하면 그것이 공통적이지 않기 때문에 (그것이 맞다고해도). –

+0

훈련에 아무런 문제가 없다면, 나는 그 단어가 명사로 태그를 붙이는 것이라고 생각합니다. – Lozzer

2

사전을 보면 "명사"(예 : Longman)로 정의 된 hello를 찾을 수 있습니다. 그것은 종종 "느낌표"또는 "interjection"으로 설명되지만 태그 "명사"는 틀리지 않습니다.

+0

나는 알고있다. 그러나 나는 비정상적으로 우리가 인사를 명사로 분류한다고 말할 것이다. 그러나 본질적으로 그것은 투쟁입니다. 당신이 "하나의 안녕하세요"라고 말하면 그것은 명사 또는 발언의 이름을 "안녕하세요"라고합니다. 따라서 Interjection 태그는 명사가 아니기를 기대합니다. 이 기본 태그 지정자가 잘못된 결정을 내리기 때문에 내 태그러를 훈련해야하는 것처럼 보입니다. –

+0

예. 나는 tagger가 정말로 틀린 * 결정을 내리지 않았다는 요지를 말하려고 노력했다. 누군가는 "컴퓨터가 영어를 이해하지 못한다는 이유가 여기에있다"고 말했다. 그 대답은 틀렸다는 것을 암시합니다. 나는 그 점을 바로 잡고 있었다. 네, 태그가 추가 된 교육 자료가 도움이 될 것입니다. – Lozzer

관련 문제