2014-11-10 1 views
0

현재 스탠포드 NER은 주로 6 클래스를 제공합니다. LOCATION, TIME, PERSON' ORGANIZATION' MONEY' PERCENT' DATE 또한 영어 데이터로 교육을 받았으므로 인도 법인을 분류 할 수 없습니다. 추가 클래스가있는 스탠포드 NER 분류

는 또한 등 product, month, disease, device 또한

는 인도의 실체를 분류하지 않는 NE을 식별 할 수 있으므로 같은 비 영어 수업에 대한 지원이 너무도 추가 할 수 있도록 추가 클래스로 분류를 양성하는 것이 가능 이것이 가능하다면.

이 추가 지원을 위해 분류기, 태그 작성자를 재교육 할 수 있습니까?

+0

인디언 피플 이름 데이터 세트는 https : // archive에서 액세스 할 수 있습니다. org/details/india-names-dataset – Thomas

답변

1

다른 클래스보다 모델을 학습하기위한 주요 번거 로움은 교육 데이터입니다.
모델에는 I brought a <START:product> Mac Book Pro <END> in September and synced it with my <START:device> IPhone <END>.과 같이 매우 정확한 교육 데이터가 필요합니다. Iphone에 장치 또는 제품으로 주석을 첨부 할 수 있습니다.
[쉬운 일이 아닙니다]라고 인식하려는 수업으로 주석을 달아 적어도 15,000 개의 문장을 생성하거나 주석을 달 수있는 경우; 너는 가서 좋다.
모델이 월 스트리트 저널 기사에 대해 교육 받았고 많은 이름을 대표하지 않기 때문에 스탠포드 NER 모델 또는 OpenNLP NER 모델은 인도 이름을 인식하지 못합니다.

+0

그래, 그게 무슨 문제인지, 나는 다른 카테고리에 대한 인도 데이터와 함께 그것을 훈련하고 싶었어. 하지만 오히려 스탠포드 네어에 답장하는 것 같아요. 자신 만의 아이디어를 만드는 것이 좋습니다. – user123

3

인디언 엔티티의 가능성 중 하나는 가능성이있는 경우 스탠포드 대원이 분류 데이터에 외부 교육 데이터를 추가하는 것이 행복하다는 것입니다. 예를 들어, 현재 영어 모델 3 개 중 2 개는 "Vihari가 어제 내 질문에 대답했습니다."라는 문장에서 "Vihari"를 인식하지 못합니다. 그러한 문장의 목록을 컴파일하여 [email protected]로 보내면, 그들은 결국 미래의 모델로 나아갈 것입니다.

제품, 장치 등과 같은 다른 클래스에 많은 양의 데이터에 레이블을 지정해야하는데 시간 소모적 인 작업입니다. 예산을 절약 할 수 있다면 Amazon Mechanical Turk가 서비스를 제공 할 수 있습니다.

1

또한 인도 단체를 분류하지 않으므로 가능하면 비 영어 수업도 지원할 수 있습니다.

"Indian"은 힌디어를 의미합니까? 스탠포드 NER이나 아파치 OpenNLP는 힌디어에 대한 명명 된 엔티티 모델을 제공하지 않지만 GATE는 기본 힌디어라는 이름의 엔티티 인식을 지원합니다. https://gate.ac.uk/sale/tao/splitch15.html#x20-41300015.7

관련 문제