기계 학습 알고리즘을 사용하는 단어 벡터화

에코 상태 네트워크의 계층 적 조합을 사용하여 R^n의 고정 된 크기의 벡터로 심볼의 보안을 벡터화하는 아이디어를 테스트하고 있습니다. 목표는 이러한 시퀀스를 벡터로 분류하는 것입니다 (고정 된 크기의 실제 벡터에 사용할 수있는 많은 기계 학습 알고리즘이 있음).기계 학습 알고리즘을 사용하는 단어 벡터화

특히이 알고리즘을 영어 단어로 테스트하여 명사 또는 형용사로 분류하려고합니다. 내 데이터 세트는 다음과 같습니다. http://www.ashley-bovan.co.uk/words/partsofspeech.html

SVM을 사용하여 분류하면 9 %의 오류가 발생합니다. 누군가 관련 논문이나 결과를 비교할 수있게 해주시겠습니까?

감사합니다.

출처

2012-02-26 user1234299

좋은 예입니다. 그러나 90 %는 보편적 인 상수로 보입니다. 잘못 분류 된 단어를 게시 할 수 있습니까? n은 무엇입니까? 어떻게 n 벡터를 정규화합니까? – denis

몇 년 전 나는 정확한 러시아어 또는 임의의 문자열 (사전을 사용하지 않고)로 분류하기 위해 Markov Chains을 사용하는 알고리즘을 연구했습니다. 나는 결과를 약 91 %를 얻은

http://www.begellhouse.com/journals/2b6239406278e43e,685626ff507e6e58,5232ec7f32b362ef.html

(당신은 내가 매우 매력적인 찾을 문제에 대한있어 매우 유사) : 여기에 번역 기사 링크입니다. 연구하는 동안 나는 저자가 영어, 프랑스어 또는 독일어로 문구 (적어도 세 단어로 구성된 문자열)를 분류하려고 시도한 또 다른 연구를 보았습니다. 그들은 조금 낮은 성공률을 보였습니다 (~ 80 %). 인터넷에서 자신의 작품에 대한 링크를 찾을 수는 없지만 Murray "확률 론적 언어 모델링"이라고 부름

출처

2012-02-26 21:40:31 GrayR

테스트 할 데이터 집합의 위치를 기억한다면 비교할 수 있습니다. 감사! – user1234299

SVM을 사용하여 어떻게 분류하고 있습니까? 어떤 배합 - c-svm, nu-svm 등? SVM은 매개 변수에 매우 민감합니다. 어떤 커널을 사용하고 있습니까? 사용중인 커널의 매개 변수는 무엇입니까? C/뉴의 가치?

오른쪽 매개 변수는 데이터 집합에 따라 다르며 일반적으로 데이터의 일부는 커널 & 매개 변수의 최적 조합을 찾는 데 사용됩니다. 잘못된 조합을 사용하면 쉽게 결과를 크게 벗어날 수 있습니다. 아마도 당신은 이미 이것을했는데, 당신이 말한 것에서는 분명하지 않고 큰 차이를 만들 수 있습니다.

출처

2012-02-27 07:47:03 karenu

나는 csvm (libsvm을 기반으로하는 mdp와 함께 python으로)을 사용하고 있습니다. 커널은 선형이지만, libsvm에서 제공하는 매개 변수를 실제로 조정하지는 않습니다. 빠른 테스트를 수행하고 얼마나 멀리 있는지 알고 싶기 때문에 기본값 (libsvm 설명서에 따라 c = 1)을 사용하고 있습니다. 최첨단 기술. – user1234299

불행히도 SVM은 좋은 '빠른 테스트'분류자가 아닙니다. 좋은 결과를 얻으려면 매개 변수를 조정해야합니다. 나는 [Chih-Wei Hsu의 벡터 분류 지원을위한 실용 가이드] (http://www.csie.ntu.edu.tw/~cjlin/papers/guide/guide.pdf), 장 치 충, Lin Chih Jen. 데이터의 크기를 올바르게 조정하고 매개 변수를 잘 조정하는 방법을 설명합니다. 튜닝을하지 않고 91 %의 정확도를 얻었다면 훨씬 더 잘할 수 있습니다. – karenu

예술 수준을 결정하는 측면에서 본인의 연구는 해당 지역에 있지 않으므로 나는 잘 알고 있지 않지만 빠른 [Google 학자 검색] (http://scholar.google.com/scholar?hl=en&q = 0 % 2C22 & as_ylo = & as_vis = 0) 검색 결과 : 학습 및 자연 언어 처리 : 품사의 사례 연구 태깅] (http://acl.ldc.upenn.edu/J/J95/J95-4004.pdf)에 1500 건 이상의 인용문이 있습니다. 그들은 99 %의 정확도를 주장하지만, 나는 단지 그것을 훑어 보았다. 거기에서 시작하여이 논문을 인용 한 논문을보고 더 최근의 연구를 찾아보십시오. – karenu

기계 학습 알고리즘을 사용하는 단어 벡터화

답변

관련 문제