2013-04-17 2 views
1

내 데이터 세트를로드하여 몇 가지 알고리즘을 시험해보고 싶습니다. 텍스트 파일로드에 특히 관심이 있습니다 (20 개의 NewsGroups 데이터 세트 http://scikit-learn.org/stable/datasets/index.html#general-dataset-api과 매우 유사합니다). 샘플 데이터 세트 이외의 데이터를로드하기위한 형식 (및 절차)을 설명하는 설명서가 있습니까?scikit-learn에 자신의 텍스트 데이터 세트로드

감사합니다.

답변

2

TfidfVectorizer 및 기타 텍스트 벡터화 기 scikit-learn의 클래스는 Python 유니 코드 문자열 목록을 입력으로받습니다. 따라서 SQLAlchemy를 사용하는 데이터베이스 쿼리, HTTP API의 json 스트림, CSV 파일 또는 임의의 텍스트 파일을 원본에 따라 원하는 방식으로 텍스트를로드 할 수 있습니다.

마지막 옵션의 경우 클래스 정보가 텍스트 파일을 포함하는 폴더 이름에 저장되면 load_files 유틸리티 기능을 사용할 수 있습니다.

관련 문제