1

일반 텍스트로 변환 된 html 문서를 사용하여 TokenNameFinder에 대한 교육 세트를 만들고 있지만 정밀도가 낮고 교육의 일부로 HTML 태그를 사용하고 싶습니다. 굵게 표시된 단어와 문장의 여백 크기가 다릅니다. OpenNLP는 이러한 태그를 수락하고 사용하여 규칙을 만들 수 있습니까? 정밀도를 높이기 위해 이러한 태그를 사용하는 다른 방법이 있습니까?OpenNLP는 교육의 일부로 HTML 태그를 사용할 수 있습니까?

답변

0

HTML 태그를 사용하여 OpenNLP를 교육하는 것이 무엇을 의미하는지 명확하지 않습니다. 기차 입력은 주석 토큰 화 된 문장 :

<START:person> Pierre Vinken <END> , 61 years old , will join the board as a nonexecutive director Nov. 29 . 
Mr . <START:person> Vinken <END> is chairman of <START:company> Elsevier N.V. <END> , the Dutch publishing group . 

이 규칙을 다음과 당신이 주석을 필요로하는 표준 도구를 사용하여 OpenNLP 모델을 훈련하십시오. 주석은 XML 표준을 따르지 않습니다.

교육용으로 사용할 HTML 문서에 특수 효과를 직접 포함시킬 수 있습니다. 추가 컨텍스트를 사용하여 분류자를 도울 수도 있지만 실험 결과를 읽은 적이 없습니다.

교육 데이터는 토큰 화되어야 함을 명심해야합니다. 단어와 구두점 사이에 공백을 포함하고 텍스트 요소와 HTML 사이에는 공백을 포함해야합니다.

<p> <i> Mr . <START:person> Vinken <END> </i> is chairman of <b> <START:company> Elsevier N.V. <END> </b>, the Dutch publishing group . 
+0

고마워요! 그게 내가 원하는거야. 이제 HTML 태그로 정밀도를 테스트 할 것입니다. 내 열차 입력이 이미 토큰 화되었습니다. – Shyba

관련 문제