2013-04-24 3 views
-3
나는 그 음식을 다음과 같은 설명을 한 USDA 영양 데이터베이스, 함께 일하고 있어요

: 쉼표가 명확하게 분리 된 개체에 사용됩니다 여기에 패턴이있다식품 정보 추출

Cheese, fontina 
Cheese, cheddar 
Cheese, cottage, lowfat, 2% milkfat 
Cheese, cottage, lowfat, 1% milkfat 
Apples, raw, with skin 
Apples, dried, sulfured, uncooked 
Apples, frozen, unsweetened, heated 
McDONALD'S, BIG MAC (without Big Mac Sauce) 
McDONALD'S, BIG MAC 
Sandwiches and burgers, roast beef sandwich with cheese 

: 예를 들어

을 . 위의 예에 따르면, 치즈는 체다 치즈, 오두막 및 폰 디나의 상위 제품입니다.

이 소스에서 정보를 추출하기 위해 이미 일부 작업을 수행했습니다.

  • POS 태그 : 단어는 형용사 나 동사 인 경우, 음식의 이름
  • freqdist/단어 수의 일부가 아닙니다 : 내가 가진 생각이이 단어의 계층 구조를 얻기 위해 이루어졌다 음식 설명

하지만 대규모로 실행할 때 부작용이 발생합니다. 어떤 설명에서 POS 태깅이 실패했고 freqdist/wordcount는 같은 문장에서 유사한 frecuency가있는 단어가 유용 할 때 유용하지 않았습니다.

입력 데이터 :

Cheese, fontina 
Cheese, cheddar 
Cheese, cottage, lowfat, 2% milkfat 
Cheese, cottage, lowfat, 1% milkfat 

출력 데이터 :

Cheese is the parent of fontina, cottage and cheddar. lowfat is a "characteristic" cheese cottage. Cottage, cheddar and fontina are the "principal foods". 

입력 데이터 :

Sandwiches and burgers, roast beef sandwich with cheese 

는 I 얻을 싶은 결과의 예

출력 데이터 :

Cheese is a characteristic of roast beef sandwich. The category of the food is sandwiches and burgers and the "principal food" is roast beef sandwich. 

저는 초심자이므로 약간의 지침을 얻고 싶습니다. NLP에 대한 많은 정보가 있으며 주제에 대한 광범위한 지식이 없어도 어떤 경로를 택할 것인지 결정하기가 어렵습니다.

답변

0

실제로 NLP 질문이 아닙니다 ...

데이터가 나무입니다. 각 행을 트리 그래프의 부분 경로로 생각하십시오. 두 번째 쉼표 뒤의 단어는 잎의 값인 것처럼 보입니다.

+0

이 질문에 대한 답변을 제공하지 않습니다. 비평하거나 저자의 설명을 요청하려면 게시물 아래에 의견을 남기십시오. 자신의 게시물에 언제나 댓글을 달 수 있으며, 충분한 평판을 받으면 (http://stackoverflow.com/faq#reputation) [모든 게시물에 댓글 달기] (http://stackoverflow.com/privileges/comment). – Jesse

+0

내가 말하는 것은 NLP가 그러한 질문에 대한 답을 제공 할 수 있다고 믿지 않는다는 것입니다. 데이터 마이닝 질문으로 태그를 지정하는 것이 더 나을 것입니다. – abecadel

+0

맞아요, * 대답 *이 아닌 * 의견 *입니다. 데이터 트리에 관한 대답을 제공하는 동안 질문자에게 ** NLP **가 아닌 **라고 대답하더라도 실제로 답변이 될 정도로 확장하면됩니다. – Jesse