2012-09-25 3 views
6

질병을 설명하는 텍스트 문서가 많이 있습니다. 이러한 문서는 대부분의 경우 매우 짧으며 종종 단일 문장 만 포함합니다. 예는 여기에 제공됩니다 :질병 지정 엔티티 인식

차 폐 고혈압은 가장 작은 폐 동맥의 광범위한 폐색 폐 혈관 저항 증가에 이르게하는 진행성 질환, 이후 우심실의 실패입니다.

는 내가 필요하면 문장 (이 경우, 예를 들어 "폐 고혈압") 모든 질병 용어를 찾아 MeSH 같은 통제 어휘에 매핑하는 도구입니다.

미리 답변 해 주셔서 감사합니다.

+1

매우 특이하고 프로그래밍 문제가 아닌 것으로 들립니다 *. 적어도 여기에 표현 된대로는 아닙니다. –

+1

더 많은 데이터 마이닝 관련 질문입니까? – Harpal

답변

2

그렇게 많은 도구가 있습니다. 일부 인기있는 것들 :

가장 그들 중 일부는 미리 정의 된 모델을 가지고 있습니다. 즉 그들은 이미 몇몇 일반적인 데이터 세트에 대해 훈련을 받았습니다. s (뉴스 기사 등). 그러나 텍스트는 매우 구체적이므로 데이터에 맞게 코퍼스를 구성하고 해당 도구 중 하나를 다시 조정해야 할 수 있습니다.

첫 번째 테스트로 엔티티 이름 목록을 디자인하고 정확한 일치 또는 근사 일치를 수행하는 사전 기반 접근 방식을 시도해 볼 수 있습니다. 예를 들어,이 작업은 LingPipe's tutorial에 나와 있습니다.

6

여기에 특별히 의료 문서 구문 분석을 위해 설계된 두 개의 파이프 라인은 다음과 같습니다

모두 UMLS, 통합 의학 언어 시스템을 사용, 따라서 당신이해야 (무료) 라이센스. 둘 다 Java이며 설정하기가 다소 쉽습니다.

+2

"나는 쉽게 설정할 수 있다고"분류 할 수 있을지 모르겠지만 오히려 잘 작동합니다.MetaMap의 새 버전은 작년 말에 발표되었습니다. –

관련 문제