0

TextDirectoryLoader를 사용하여 arff 파일로 텍스트 또는 웹 페이지 파일을 변환하는 방법을 알고 있습니다.텍스트 파일을 ARFF 형식으로 변환

하나의 텍스트 파일을 Arff 파일로 변환하는 방법을 알고 싶습니다.

도움이 될 것입니다.

+0

예를 들려 줄 수 있습니까? 예상되는 결과는 무엇입니까? – Sentry

+0

웹 페이지 컬렉션을 arff 형식으로 변환하기 위해 TextDirectoryLoader를 사용했습니다. 이제는 단일 웹 페이지를 arff 형식으로 변환하고 싶습니다. 광고 및 기타 자료와 같은 텍스트 소음 때문에 웹 페이지의 콘텐츠를 수동으로 텍스트 파일로 복사하려고 생각했습니다. –

+0

당신은 이해하지 못하는 것 같습니다. ARFF 파일은 클래스 및 기능이있는 샘플로 구성됩니다. 수업은 뭐니? 웹 페이지를 대표하는 샘플이 하나만 있어야합니까? 예를 들자면, 지금까지 우리가 지금하고있는 것을 의미 할 수 있습니다. – Sentry

답변

3

구체적으로 작성하십시오. 어쨌든 :

  • 파일의 텍스트가 (그것을하는 단일 인스턴스가 있음), 당신이 필요로하는 모든 만들기 위해 이스케이프 코드 \n로 모든 "새로운 라인"을 대체하는 하나의 문서에 해당하는 경우 전체 텍스트는 한 줄에 있어야하며 단일 텍스트 속성과 단일 인스턴스가있는 arff로 수동 서식을 지정하십시오.

    텍스트가 여러 인스턴스 (예 : 문서)에 해당하는 경우 I 은 여러 파일로 나누고 TextDirectoryLoader을 적용하는 스크립트를 만들 것을 제안합니다. 특정 형식이있는 경우 (예 : 인스턴스가 XML 태그로 묶여 있음) XML 형식을 활용하여 을 사용하여 동일한 작업을 수행하거나 WEKA에 사용자 정의 로더 클래스를 작성하여 형식을 인식하고 빌드 할 수 있습니다 Instances 객체.

예제를 게시하면 더 정확한 제안을 얻는 것이 더 쉬울 것입니다.

+0

귀하의 이전 답변에 따라 나는 TextDirectoryLoader.Thanks 많이 사용하여 arff 형식으로 웹 페이지 집합을 변환합니다. 하나의 웹 페이지를 arff 형식으로 변환하고 싶습니다. (각각의 클래스를 나타내는 서브 다이얼이 여러 개있는 디렉토리가 아닙니다.) 텍스트 노이즈 (웹 페이지의 광고 및 다른 것들)를 위해서 수동으로 웹 페이지 내용 만 복사하고 붙여 넣었습니다. 텍스트 파일 이제이 텍스트 파일을 arff 파일 inorder로 변환하여 테스트 데이터로 제공하려고합니다. (분류기가이 웹 페이지를 올바르게 분류하는지 여부를 확인하고 싶습니다.) 고마워요. –

관련 문제