2014-03-05 2 views
1

스탠포드 NER를 사용하여 제품 데이터를 구문 분석하려고합니다. 스탠포드 NER를 사용하여 제품 데이터 구문 분석

iPhone 4 16GB black 
Nikon D5100 
Apple iPhone 4s 
kindle touch 
kindle fire 

지금 내가 그 데이터로 NER을 훈련 할, 그래서 내가 먼저 분류 할 수있다 : 내 훈련 데이터는 다음과 같습니다. standford 웹 사이트는 책의 장을 구문 분석하고 새 행의 모든 ​​단어를 토큰 화하는 예제를 제공합니다.

iPhone 
4 
16GB 
black 

의 I는 한 줄에 "아이폰 4"를 넣을 때 "4"새 라인,하지만하지 않아야의 NER 생각 : 같은이 내 경우에는 도움이되지 것, 데이터 이상의 원인은 보인다 "4"는 토큰 "iPhone"의 카테고리입니다.

제품 데이터로 NER를 교육하는 방법에 대한 도움이 필요합니다. 너는 무엇을 제안 하겠는가? "iPhone"을 "전화"로, "iPhone 4"를 "전화"로 분류 할 수 있습니까?

답변

0

전통적 (비 재귀적인) 명명 된 엔티티를 사용하여 정보를 효율적으로 추출 할 수 있을지 궁금합니다. 제 생각에는, 당신은 더 구조화 된 무언가를해야 할 수 있습니다

CRF는 this paper에서 예를 들어 설명이다 사용하여 구조화라는 이름의 실체를 인식하는 방법
<phone> 
    <model> iPhone <model> 
    <version> 4 </version> 
    <capacity> 16GB <capacity> 
    <color> black </color> 
</phone> 

. 기본적으로 엔티티 유형 당 하나의 CRF를 학습하고 구조화 된 명명 된 엔티티를 인식하기 위해 사후 확률 (각 개별 CRF에서)을 결합합니다.

실재로 엔티티는 적절한 구조화 된 교육을 받아야하기 때문에 코퍼스 리엔지니어링이 필요합니다.