2014-06-10 3 views
1

텍스트 마이닝 기반의 기술 자료를 만들려고합니다. 나는 Genia Corpus를 사용하여 해당 부분의 말로 태그를 붙입니다. 텍스트의 두 가지 조건을 감안할 때 관계를 찾는 모델을 어떻게 만듭니 까?NLP POS 태그에서 모델 만들기

예 : 텍스트 :

HIF1A 유전자가 저산소 규제에 참여하고있다. 저산소증은 또한 주로 유방암과 관련된 BRCA1 유전자 발현을 조절합니다.

POS에 태그가 지정되었습니다.

Word  Base Form Part-Of-Speech 
HIF1A HIF1A   NN 
gene  gene   NN 
is   be   VBZ 
involved  involve VBN 
in   in   IN 
Hypoxic Hypoxic JJ 
regulation regulation NN 
.   .   . 
Hypoxia Hypoxia  NN 
also  also   RB 
regulates regulate VBZ 
BRCA1 BRCA1   NN 
gene  gene   NN 
which which   WDT 
is   be   VBZ 
mainly mainly   RB 
associated associate VBN 
in   in   IN 
breast breast   NN 
cancer cancer   NN 

나는 BRCA1을 조회 때 저산소증이 그들 사이의 긍정적 인 규제가 있다고 말해야하는 웹 인터페이스를 쓰고 있어요. HIF1A와 저산소증에 대해 질문 할 때,이 문장에 기초한 긍정적 인 규제가 있음을 말해야합니다.

이제 POS 태그가있어서 모델 간의 관계를 식별하는 모델을 만드는 방법을 알지 못합니다. 이것은 단지 예일뿐입니다. 나는 일반적인 생물 의학 용어와 텍스트를 위해 그것을하고 싶다.

아무나 제안 사항이 있으십니까?

답변

2

POS 태그 작성기의 출력에만 의존하면 로컬 문법 규칙 (패턴)을 정의해야합니다.

개인적으로, 나는 도구로 사용할 구문 분석을위한 특정 파서

+0

있는가 ... 당신이 regulate(Hypoxia,BRCA1) 같은 인수 구조를 얻기 위해 (구문) 파서를 사용하는 것이 좋습니다까요? – Vignesh

+1

영어의 경우 많은 파서를 사용할 수 있습니다. Standford 파서는 시작할 수있는 좋은 곳입니다. http://nlp.stanford.edu/software/lex-parser.shtml – Pierre

관련 문제