2011-01-24 2 views
2

상황 : 나는 주어진 텍스트의 깊은 수준의 분석을 수행 할NLP : 언어 분석 기술 및 알고리즘

는이 의미 : 중요도를 키워드를 추출하고 할당 할

  1. 능력을 문맥상의 사용법에 기반합니다.
  2. 표현 된 기분에 결론을 이끌어내는 능력. 교육 수준에 암시하는
  3. 능력 (워드하지만이에게 조금 않지만, 더 자동화 된 것을)
  4. 능력 믹스 앤 문구와 일치하는 특정 통신 패턴을에서 상당한 의미를 그리는
  5. 능력을 알아 그것은 정량화 될 수 있고 기계에 의한 응답을 위해 처리 될 수있다.

질문 :이 위해 사용되는 알고리즘과 기술을 필요로 어떤 종류의

?

이 작업을 수행하는 데 도움이되는 소프트웨어가 있습니까?

답변

3

DARPA, CIA, FBI 및 기타 모든 미국 정보 기관에 연락하십시오. 이와 같은 프로젝트에 대한 계약은 연구 보조금으로 수 백만 달러에 달하는 현재 연구 항목입니다. ;)

그렇다면 레이어에서 처리하고 각 레이어에서 분석해야 할 것입니다. 2 번과 3 번 항목의 경우 n-tuples (시도, 3)에 SVM을 교육하면 도움이되는 단어를 찾을 수 있습니다. 1과 4에 대해서는 더 깊은 분석이 필요합니다. NLTK과 같은 도구 또는 다른 많은 파서 중 하나를 사용하여 문장 및 관련 단어에서 주제어를 찾습니다. 또한 WordNet (Princeton 출신) 을 사용하여 가장 일반적인 감각을 찾아 키워드로 사용하십시오.

5 위의 데이터를 지능적으로 사용하면 원하는 것을 얻을 수 있지만 모든 문법 지식과 프로그래밍 지식을 사용해야하며 여전히 매우 거친일 것입니다.

1

몇 가지 실험을 할 수있는 것처럼 들리 겠지만 툴킷 방식이 가장 좋을 수 있습니다. 그렇다면 NLTK Python 용 Natural Language Toolkit을 살펴보십시오. 아파치 라이선스하에 오픈 소스이며, 훌륭한 책이 몇 편있다. (크리에이티브 커먼즈 라이센스하에 온라인으로도 공개 된 O'Reilly의 책 하나 포함).

+0

cpfohl이 말했듯이, 당신이하려는 것은 어렵습니다. 도메인 제약과 실험을 통해 당신은 유용한 것을 할 수있을 것입니다. – winwaed

+0

예, 그렇게 생각합니다. 어렵습니다. 나는 어떻게 든 매우 일반적인 형식으로 질문을 얻었다. 필자가 필요로하는 텍스트 세트는 다소 작으며이 키트 중 하나를 사용하여 약간의 인간 개입이 가능합니다. – OrangeRind

+0

하지만 그때 나는 그것에 대해 생각해 보았고 현재의 연구 범위 밖에서도 이것을 별도의 도전적인 문제로 생각하기 시작했습니다. 흥미로운 것 같고 끝내야 할 과제가 많이 남아있는 것처럼 보입니다. :) – OrangeRind