2017-10-25 4 views
0

내 자신의 분류자를 교육하기 위해이 FAQ https://nlp.stanford.edu/software/crf-faq.shtml을 따르고 있으며 성능 평가 결과가 결과와 일치하지 않는다는 것을 알게되었습니다. 스탠포드 CRFClassifier 성능 평가 출력

CRFClassifier tagged 16119 words in 1 documents at 13824.19 words per second. Entity P R F1 TP FP FN MYLABEL 1.0000 0.9961 0.9980 255 0 1 Totals 1.0000 0.9961 0.9980 255 0 1

내가 예측 라벨 MYLABEL 예측되었지만 황금 라벨이 FN이 모든 인스턴스로, O 있었다 모든 인스턴스로 황금 라벨, FP 일치하는 모든 인스턴스로 TP을 기대할 특히이 섹션 O이 예측되었지만 황금색은 MYLABEL입니다.

프로그램의 출력에서이 숫자를 직접 계산하면 프로그램이 인쇄하는 것과 전혀 다른 숫자를 얻게됩니다. 다양한 테스트 파일을 사용하여이 시도했다. 나는 사용하고있다 Stanford NER - v3.7.0 - 2016-10-31

내가 놓친다?

답변

1

F1 점수는 레이블이 아닌 엔티티입니다.

예 :

Joe Smith PERSON 
Hawaii  LOCATION 

엔티티가 동일한 라벨이 모든 인접한 토큰을 취함으로써 생성된다 :이 예에서

(Joe, PERSON) (Smith, PERSON) (went, O) (to, O) (Hawaii, LOCATION) (., O). 

두 가능한 엔티티들이있다. (보다 복잡한 BIO 라벨링 체계를 사용하지 않는 한, BIO 체계에는 I-PERSON 및 B-PERSON과 같은 태그가있어 토큰이 엔티티의 시작인지 여부 등을 나타냄).

+0

나는 이것을 이해한다. 내 질문은 성능 평가에 관한 것입니다. 간단한 예를 들어 봅시다 - 조는 소년입니다. 예측 된 엔티티가 (Joe, PERSON) (is, O) (a, O) (boy, PERSON)라고합시다. 이 보고서는 1 TP 1FP, 맞습니까? 그것은 TP, FP, FN에서보고있는 것이 아닙니다. – user1170883

+0

예 리콜은 100 %이고 정밀도는 50 % 여야합니다. – StanfordNLPHelp

+0

평가 데이터에 몇 개의 토큰이 있습니까? – StanfordNLPHelp