2010-03-14 2 views
19

StackOverflow가 NLP를 처리하는지 여부를 알지 못하므로이 기능을 제공 할 것입니다. "이미지 품질"과 "노이즈"와 같은 특정 도메인에서 두 단어의 의미 관련성을 찾는 데 관심이 있습니다. 나는 카메라의 리뷰가 카메라의 특정 속성에 대해 긍정적인지 또는 부정적인지 결정하기 위해 조사를하고 있습니다. (각 리뷰의 화질과 비슷 함).NLP : 단어 간의 의미 상 유사성을 찾는 쉽고 좋은 방법은 무엇입니까?

그러나 모든 사람은 게시물에서 동일한 표현 "이미지 품질"을 사용, 그래서 내가 그런 일 구축 할 수있는 방법이 있는지 알아 이니

"화질"포함 ("노이즈", "색상", "선명도"등) 그래서 모든 것을 하나의 큰 우산으로 감쌀 수 있습니다.

다른 언어에 대해이 작업을 수행하고 있으므로 Wordnet이 반드시 도움이되지는 않습니다. 그리고 아니요, 저는 Google이나 Microsoft에서 작동하지 않기 때문에 사람들의 클릭 행위에 대한 데이터가 입력 데이터가 아닙니다.

는 그러나, 나는 많은 텍스트를 수행 POS-태그는

+0

작업중인 데이터와 수행하려는 정확한 작업에 대해 더 많이 말할 수 있다면 유용 할 것입니다. 개별 리뷰의 내용을 긍정적 또는 부정적으로 분류하려고합니까? 또는 리뷰에 이미 양성 또는 음수 라벨이 붙어 있다고 가정하고 카메라의 어떤 속성이 제품에 대한 사용자의 감정을 이끌어 내는지 파악하려고 시도하고 있습니까 (예 : 제품에 별 5 개 중 1 개가 제공됨). 사용자가 '이미지 품질'을 리뷰에 언급하므로 이미지 품질이 나쁜 것으로 추측합니까?) – dmcer

+0

죄송합니다. NLP/신경 언어 프로그래밍과 혼동하는 NLP/자연어 처리. 내 잘못이야. –

+0

1) 저는 용어의 우산 분류를 찾고 싶습니다 : 다중 속성이 실제로 동일한 카테고리에 속하는 것과 같은 (이 분류는 다음과 같을까요?) 나는 기계 학습 방법을 통해서만 분류를 처리했습니다. NLP에 적용될 2) 기본적으로 "개념"과 "세부 사항"이 "카메라 무게"대 "플래시"보다 높아야한다는 두 가지 개념 용어 사이의 유사성을 말하고 싶습니다. – sadawd

답변

2

이 잠재 의미 색인 http://en.wikipedia.org/wiki/Latent_semantic_indexing가 특별히 문제를 해결 살펴보십시오 등 분할. 그러나 이러한 메타 개념과 긍정적 또는 부정적 감정을 연관시키는 방법을 생각해 내야합니다. 감정 분석 http://en.wikipedia.org/wiki/Sentiment_analysis 당신을 도울 것입니다. 귀하의 코멘트를 다시

+1

정말 배우기에 좋은 자료입니다. LSI (당신이 어떤 일을 할 의향이 있다면) http://nlp.stanford.edu/IR-book/pdf/18lsi.pdf – bernie2436

5

체크 아웃 구글 유사성 거리 - http://arxiv.org/abs/cs.CL/0412098 예. 많은 웹 페이지에 둘 다 포함되어 있다면 아마 관련이있을 것입니다. 그 외에는 http://mechanicalcinderella.com

, 당신은 협업 온톨로지 (도움이 될 수 Google 번역) 워드 넷과 같은 프로젝트를 (번역, 또는 시작을 시도 할 수 있습니다에서

데모 프로그램.

+0

그 데모에서 (프로그래밍, 동물)의 연결이 강해서 (프로그래밍, html)) http://www.mechanicalcinderella.com/index.php?inset%5B%5D=animal&inset%5B%5D=html 5B % 5D = & inatr % 5B % 5D = & inatr % 5B % 5D = & inatr % 5B % 5D = & inatr % 5B % 5D = & inatr % 5B % 5D = & insat % 5B % 5D = & inset % #results – Mher

+0

http://mechanicalcinderella.com 지금 깨진 –

4

사이의 의미 적 유사성을 찾기 위해 이러한 모델은 매우 쉽고 효율적으로 구현할 수 있습니다. 가장 가능성이 높은 것은 일종의 차원 감소를 구현하는 것입니다. 내가 생각할 수있는 가장 쉬운 방법은 광범위하게 사용 된 Random Indexing입니다. NLP에서.

단어 공간 모델을 사용하면 거리를 계산할 수 있습니다 (예 : 코사인 거리). 그러한 모델에서는 이전에 언급 한 결과 ("초점"과 "세부 사항"사이의 거리가 "카메라 무게"대 "플래시")보다 높아야합니다.

희망이 도움이됩니다.

+0

두 링크가 모두 고장났습니다. – snoram

2

2 주 전에 HackerNews에서 word2vec을 보았습니다. 원하는 것을 아주 가깝게 보았습니다.

1

Word-Space는 확실히 여기로 갈 수있는 방법입니다. LSA가 응용 프로그램의 속도를 늦추거나 임의 색인 생성의 의미가 너무 얕 으면 api.cortical.io을 고려해야합니다. 이 REST API는 모든 단어의 의미 지문 표현을 제공합니다. 이 의미 적 지문은 단어가 속한 모든 다른 문맥을 포함합니다. "기관"이 반환하는 것과 같은 하나의 단어를 명확하게 할 수 있습니다 (근육, 피아노, 교회, 회원 ...) 그리고 컨텍스트마다 문맥 상 용어를 얻을 수 있습니다 : "피아노"는 (오르간, 클라리넷, 바이올린, 플루트, 첼로, 작곡, 하프시 코드, 오케스트라) 마지막 의미에 대해 이러한 의미 적 지문은 완전히 언어 독립적입니다. 현재 cortical.io API 커버 : 영어, 스페인어, 프랑스어, 독일어, 덴마크어, 아랍어, 러시아어, 중국어. 더 많은 언어가 2014 년 말까지 게시 될 예정입니다.

관련 문제