2012-02-26 3 views
1

에코 상태 네트워크의 계층 적 조합을 사용하여 R^n의 고정 된 크기의 벡터로 심볼의 보안을 벡터화하는 아이디어를 테스트하고 있습니다. 목표는 이러한 시퀀스를 벡터로 분류하는 것입니다 (고정 된 크기의 실제 벡터에 사용할 수있는 많은 기계 학습 알고리즘이 있음).기계 학습 알고리즘을 사용하는 단어 벡터화

특히이 알고리즘을 영어 단어로 테스트하여 명사 또는 형용사로 분류하려고합니다. 내 데이터 세트는 다음과 같습니다. http://www.ashley-bovan.co.uk/words/partsofspeech.html

SVM을 사용하여 분류하면 9 %의 오류가 발생합니다. 누군가 관련 논문이나 결과를 비교할 수있게 해주시겠습니까?

감사합니다.

+0

좋은 예입니다. 그러나 90 %는 보편적 인 상수로 보입니다. 잘못 분류 된 단어를 게시 할 수 있습니까? n은 무엇입니까? 어떻게 n 벡터를 정규화합니까? – denis

답변

0

몇 년 전 나는 정확한 러시아어 또는 임의의 문자열 (사전을 사용하지 않고)로 분류하기 위해 Markov Chains을 사용하는 알고리즘을 연구했습니다. 나는 결과를 약 91 %를 얻은

http://www.begellhouse.com/journals/2b6239406278e43e,685626ff507e6e58,5232ec7f32b362ef.html

(당신은 내가 매우 매력적인 찾을 문제에 대한있어 매우 유사) : 여기에 번역 기사 링크입니다. 연구하는 동안 나는 저자가 영어, 프랑스어 또는 독일어로 문구 (적어도 세 단어로 구성된 문자열)를 분류하려고 시도한 또 다른 연구를 보았습니다. 그들은 조금 낮은 성공률을 보였습니다 (~ 80 %). 인터넷에서 자신의 작품에 대한 링크를 찾을 수는 없지만 Murray "확률 론적 언어 모델링"이라고 부름

+0

테스트 할 데이터 집합의 위치를 ​​기억한다면 비교할 수 있습니다. 감사! – user1234299

0

SVM을 사용하여 어떻게 분류하고 있습니까? 어떤 배합 - c-svm, nu-svm 등? SVM은 매개 변수에 매우 민감합니다. 어떤 커널을 사용하고 있습니까? 사용중인 커널의 매개 변수는 무엇입니까? C/뉴의 가치?

오른쪽 매개 변수는 데이터 집합에 따라 다르며 일반적으로 데이터의 일부는 커널 & 매개 변수의 최적 조합을 찾는 데 사용됩니다. 잘못된 조합을 사용하면 쉽게 결과를 크게 벗어날 수 있습니다. 아마도 당신은 이미 이것을했는데, 당신이 말한 것에서는 분명하지 않고 큰 차이를 만들 수 있습니다.

+0

나는 csvm (libsvm을 기반으로하는 mdp와 함께 python으로)을 사용하고 있습니다. 커널은 선형이지만, libsvm에서 제공하는 매개 변수를 실제로 조정하지는 않습니다. 빠른 테스트를 수행하고 얼마나 멀리 있는지 알고 싶기 때문에 기본값 (libsvm 설명서에 따라 c = 1)을 사용하고 있습니다. 최첨단 기술. – user1234299

+0

불행히도 SVM은 좋은 '빠른 테스트'분류자가 아닙니다. 좋은 결과를 얻으려면 매개 변수를 조정해야합니다. 나는 [Chih-Wei Hsu의 벡터 분류 지원을위한 실용 가이드] (http://www.csie.ntu.edu.tw/~cjlin/papers/guide/guide.pdf), 장 치 충, Lin Chih Jen. 데이터의 크기를 올바르게 조정하고 매개 변수를 잘 조정하는 방법을 설명합니다. 튜닝을하지 않고 91 %의 정확도를 얻었다면 훨씬 더 잘할 수 있습니다. – karenu

+0

예술 수준을 결정하는 측면에서 본인의 연구는 해당 지역에 있지 않으므로 나는 잘 알고 있지 않지만 빠른 [Google 학자 검색] (http://scholar.google.com/scholar?hl=en&q = 0 % 2C22 & as_ylo = & as_vis = 0) 검색 결과 : 학습 및 자연 언어 처리 : 품사의 사례 연구 태깅] (http://acl.ldc.upenn.edu/J/J95/J95-4004.pdf)에 1500 건 이상의 인용문이 있습니다. 그들은 99 %의 정확도를 주장하지만, 나는 단지 그것을 훑어 보았다. 거기에서 시작하여이 논문을 인용 한 논문을보고 더 최근의 연구를 찾아보십시오. – karenu

관련 문제