5

의학 텍스트 용 반자동 주석 도구를 개발 중이며 주석을위한 RDF 삼중 항을 찾는 데 완전히 빠져 있습니다.반자동 주석 도구 - RDF 형식을 찾는 방법

현재 NLP 기반 접근 방식을 사용하려고합니다. 나는 Stanford NER와 OpenNLP를 이미 살펴 봤으며 두 가지 모두 질병 이름 추출 모델을 가지고 있지 않다.

내 질문 : * 질병 이름 추출을위한 새로운 NER 모델을 만들려면 어떻게해야합니까? OpenNLP 또는 Standford NERs로부터 도움을받을 수 있습니까? * NLP 이외의 다른 방법으로 텍스트에서 RDF 세 쌍을 추출하는 방법이 있습니까?

도움이 될 것입니다. 감사.

답변

4

나는 OpenNLP와 LingPipe 둘 다 필요로하는 것과 비슷한 것을 해왔다. LingPipe의 정확한 사전 기반 청킹을 사용 사례에 알맞게 사용하고이를 사용했습니다. 여기에 해당 문서 : 지명 사전/사전 접근 방식은 당신을 위해 충분하지 않은 경우 당신은 당신의 자신을 만드는 시도 할 수

: http://alias-i.com/lingpipe/demos/tutorial/ne/read-me.html

당신이있어 작은 데모를 찾을 수 있습니다 모델의 경우 OpenNLP에는 교육 모델 용 API도 있습니다. 여기에 문서가 있습니다 : http://opennlp.apache.org/documentation/1.5.2-incubating/manual/opennlp.html#tools.namefind.training

자연어에서 RDF 트리플을 추출하는 것은 명명 된 엔티티를 식별하는 것과는 다른 문제입니다. NER은 관련이면서도 필요한 단계이지만 충분하지는 않습니다. 자연 언어로 된 RDF 문장을 추출하려면 문장의 주제와 대상과 같은 엔티티를 식별해야합니다. 그러나 당신은 또한 동사의 동사 및/또는 관계를 식별 할 필요가 있으며 또한 이들을 URI에 매핑해야합니다.

+0

mmmmmmm .. ok OpenNLP 교육 도구를 이미 살펴 보았습니다. 그러나 제 질문은 원래 사람 이름 용으로 설계된 질병 이름을 발견하도록 모델을 훈련시킬 수 있습니까? –

+0

당신은 좋은 것으로 시도하고 측정 할 수 있습니다. 사용할 도구는 무엇이든, 지명 사전/사전 접근법을 사용하지 않는 한 교육용 데이터 세트가 필요할 수 있습니다. 따라서 동일한 데이터 세트를 사용하여 서로 다른 시스템을 교육하고 비교할 수 있습니다. OpenNLP 교육 API는 충분히 간단하여 실험을 수행하는 것이 비용이 많이 들지 않습니다. 그러나 교육 데이터 세트가 필요합니다. – castagna

+0

네 .. 정확하게 .. 교육/테스트 데이터 세트를 조금 봤는데 PubMed 데이터베이스 인 것 같은 최고의 무료 파일을 발견했습니다 .. 사용할 수있는 다른 교육 데이터 세트에 대해 알고 있습니까? 정말 고마워요! –