2014-02-11 1 views
4

Encog Framework에서 사용한 예에서는 숫자 데이터를 텍스트 데이터로 분류하는 방법을 설명합니다. Encog Framework 숫자가 아닌 예제, 텍스트 분류

"sepal_l","sepal_w","petal_l","petal_w","species" 
5.1,3.5,1.4,0.2,Iris-setosa 
4.9,3.0,1.4,0.2,Iris-setosa 
4.7,3.2,1.3,0.2,Iris-setosa 
4.6,3.1,1.5,0.2,Iris-setosa 
5.0,3.6,1.4,0.2,Iris-setosa 
5.4,3.9,1.7,0.4,Iris-setosa 

정상화 및 예를 들어, Encog를 통해 텍스트를 사용하는 방법의 간단한 예,이 같은 데이터가 있습니까 : 예를 들어, 다음은 고전 아이리스 데이터 세트에 사용되는 데이터이다 (?) :

"subject","body","Spam" 
"This is the subject","This is the body",1 
"This message is not spam","Lorem ipsum dolor",0 
etc... 
+1

http://ijcsi.org/papers/IJCSI-10-2-1-17-21.pdf 분류 자들은 숫자 데이터를 처리합니다. 텍스트에서 피쳐를 선택하기 위해 위와 같은 다양한 접근법이 있지만 모든 세부 알고리즘이며, 알고있는 간단한 방법이 없습니다. – Steve

+2

링크를 제공해 주셔서 감사합니다. 이미 파이썬에서이 작업을 수행하는 방법을 알고 있지만 텍스트를 숫자로 변환하고 중지 단어 및 기타 유용한 정보를 제거하는 데 유용한 sklearn 및 기타 패키지의 몇 가지 메소드가 있습니다. ** Encog Framework **에 사용자 정의 프로그램을 작성해야한다면 이러한 지원이 필요한지 궁금합니다. – user1477388

답변

1

Encog는 현재 순수 텍스트 인코딩에 대한 더 높은 수준의 추상화를 제공하지 않습니다. Encog 뉴런에 대한 입력은 단순히 가중치 행렬에 대해 계산되는 숫자 값입니다. Encog는 범주 형 텍스트 값을 인코딩 할 수 있습니다.