2013-07-04 2 views
1

Rapidminer를 처음 사용했습니다. XML 파일이 많아 키워드를 기반으로 파일을 수동으로 분류하고 싶습니다. 그런 다음이 데이터에 Naive Bayer 및 SVM과 같은 분류기를 교육하고 교차 유효성 검사기를 사용하여 성능을 계산하고 싶습니다.분류를 위해 Rapidminer를 사용하여 XML 파일을 처리하는 방법

당신은 나를이 다른 단계를 알려 주시기 바랍니다 수 있을까요?

나는 등 tokenising, TFIDF 같은 텍스트 처리 활동을 사용해야 하는가? 즉, 폴더의 모든 파일을 반복 차례로 각각 읽기 -

답변

0

단계는 파일에 이상이

  1. 루프처럼 뭔가를 갈 것입니다.
  2. 각 파일에 대해
    • 문서로 읽습니다.
    • 는 출력에 적합한 XPath 질의 문서의 추출 된 정보에 대응하는 행을 포함 Extract Information 또는 Cut Document 같은 연산자를 사용하여 토큰 화.
  3. 모든 행 문서 벡터를 생성합니다. 이것은 TF-IDF 또는 다른 접근법이 사용되는 곳입니다. 선택은 TF-IDF가 상대적으로 적은 수의 문서에 자주 나타나는 토큰에 더 많은 가중치를 두는 것이 중요한 선택 일 때의 문제에 달려 있습니다.
  4. 모델을 구축하고 보이지 않는 데이터에 대한 성능의 추정치를 얻기 위해 교차 유효성 검사를 사용합니다.

저는이를 위해 기초로 사용할 수있는 과정에 link을 포함 시켰습니다. XML 파일을 포함하는 RapidMiner 저장소를 읽으므로 텍스트 처리 기술을 사용하여 XML 문서를 처리하는 좋은 예입니다. 분명히, 당신은 당신의 경우에 대한 몇 가지 큰 수정을해야 할 것입니다.

희망이 있습니다.

0

아마, 답장을 너무 늦게이다. 그러나 그것은 다른 사람들에게 도움이 될 수 있습니다. '텍스트 마이닝 확장'이라는 확장이 있는데, 6.1.0 버전을 사용하고 있습니다. RapidMiner> help>로 이동하여이 확장 프로그램을 업데이트하고 설치할 수 있습니다. 하나의 디렉토리에서 모든 파일을 가져옵니다. 그것은 당신이 또한

를 사용할 수있는 다양한 텍스트 마이닝 알고리즘을 가지고, 내가 당신에게 어떤 도움이 될뿐만 아니라 https://www.youtube.com/watch?v=oXrUz5CWM4E

수있는이 튜토리얼 비디오를 발견
관련 문제