스탠포드 NER를 사용하여 제품 데이터를 구문 분석하려고합니다. 스탠포드 NER를 사용하여 제품 데이터 구문 분석
iPhone 4 16GB black
Nikon D5100
Apple iPhone 4s
kindle touch
kindle fire
지금 내가 그 데이터로 NER을 훈련 할, 그래서 내가 먼저 분류 할 수있다 : 내 훈련 데이터는 다음과 같습니다. standford 웹 사이트는 책의 장을 구문 분석하고 새 행의 모든 단어를 토큰 화하는 예제를 제공합니다.
이
iPhone
4
16GB
black
의 I는 한 줄에 "아이폰 4"를 넣을 때 "4"새 라인,하지만하지 않아야의 NER 생각 : 같은이 내 경우에는 도움이되지 것, 데이터 이상의 원인은 보인다 "4"는 토큰 "iPhone"의 카테고리입니다.
제품 데이터로 NER를 교육하는 방법에 대한 도움이 필요합니다. 너는 무엇을 제안 하겠는가? "iPhone"을 "전화"로, "iPhone 4"를 "전화"로 분류 할 수 있습니까?