2011-12-11 2 views
-1

저는 텍스트 처리 및 마이닝을 기반으로 한 연구를하고 있습니다. 원칙은 간단합니다. 예를 들어, "2011Jan01"과 같은 특정 날짜 내의 모든 게시물을 수집합니다. 우리는 어떤 클라이언트가 그 내용을 게시하는지 신경 쓰지 않고 게시했을 때만 집중합니다. 예를 들어, "2011Jan01"날짜에 5 명의 고객이 우리 포럼의 제품에 대한 의견을 게시 한 후 고객 정보를 삭제하고 게시물의 내용을 결합합니다.데이터베이스를 사용하여 대량의 일일 텍스트 소스를 저장하는 방법은 무엇입니까?

그러나 우리에게는 큰 포럼이 있으므로 매일 긴 스레드 나 짧은 스레드를 게시하는 데 수천 명의 사람들이 활발하게 활동할 수 있습니다. 우리가 그들을 결합한다면. 하루 동안 10 천 또는 수십만 줄이 될 것입니다.

MySQL과 같은 데이터베이스를 사용하여 저장하고 나중에 데이터 마이닝 할 테이블을 작성하고 싶습니다. 테이블에 대한 우리의 첫 번째 아이디어는 매우 간단합니다 :

Date    combinedPostContents 
    2011Jan01  "blablalbla everything from clients, lot of contents" 

이 간단 합리적이다? 또는 로컬 텍스트 파일을 사용하여 내용을 저장하고 텍스트 파일을 수집하는 날짜까지 이름을 지정해야합니까? 어느 것이 더 낫습니까? 사전에

감사 많은, 제품에 대한 고객의 의견을 얻을 수있는 지도자! :)

+0

왜 나에게 -1을 주겠습니까? 이 질문은 중요하지 않습니까? –

답변

1

데이터 마이닝 텍스트 정보는 매우 어려울 것이다. 당신은 분명히 데이터베이스를 사용하기를 원할 것입니다. 그리고 검토중인 제품에 대해 일종의 등급 시스템을 수행해야합니다.

+0

고맙습니다. 내 질문에 언젠가는 내용이 언젠가 수천 단어가된다면 데이터베이스의 한 열에 저장하는 것이 합리적일까요? –

+0

한 열 또는 천 개의 열이 텍스트 검색 문제를 단순화하지 않으므로 Microsoft SQL Server에서 NVARCHAR (MAX)가 올바르게 작동해야합니다. – UnhandledExcepSean

+0

대단히 감사합니다! –

관련 문제