0
아랍어 텍스트에 StringToWordVector
필터를 사용하려고하는데 영어 문자와 숫자 및 이모티콘 "내 데이터가 짹짹입니다"를 제거하고 싶습니다. 아랍어 단어 만 유지하십시오. StringToWordVector
필터를 사용하는 사람은 누구입니까? 나는 Weka 라이브러리와 함께 Java를 사용하고 있습니다.StringToWordVector 필터를 사용하여 아랍어 텍스트에서 영어 문자를 제거하는 방법
감사합니다 : 시도 느슨한
"이모티콘"의 정의,하지만 너무 그들을 제거 :
는 (영어 사용) 라틴어 문자와 숫자를 제거하려면 나는 이것을 시도 할 것이지만, 유형 "인스턴스"로부터의 청소 후에 훈련 데이터 집합에 분류자를 만들어야하기 때문에 어떻게 할 수 있습니까? –