2013-11-27 3 views
-1

텍스트를 분석하는 응용 프로그램을 구현하려고합니다. 텍스트에서 내가 정의한 정보를 확인해야합니다. 제품 발표, 누군가 또는 무언가에 대한 의견 .... 중요한 텍스트는 아무 것도 바꾸지 않고 추출하면됩니다.구조화되지 않은 텍스트에서 특정 정보를 찾는 방법

지식을 얻으려면 어떻게해야합니까? 당신이 할 수있는 방법/알고리즘 recoment 수 있습니까? 도움 AVL

답변

0

에 대한

감사는 분석이 있어야한다 얼마나 똑똑한에 따라 다릅니다.

가장 간단한 방법은 정규식을 사용하여 키워드를 검색하는 것입니다.

스팸과 햄을 구별하기 위해 스팸 필터 do (예 : http://bogofilter.org/ 또는 http://nasauber.de/opensource/b8/ 참조)와 같은 통계 텍스트 분석을 사용할 수도 있습니다. 하나의 주제에 대해 전형적으로 "학습 된"텍스트로 데이터베이스를 생성 한 다음 텍스트가 각 데이터베이스에 대해 해당 주제에 관한 확률을 말하는 "스팸성"을 계산할 수 있습니다. 이것은 아마도 잘 동작 할 것이지만 코드를 작성하는 작업이 많습니다.

관련 문제