2016-11-19 3 views
3

바람직하게는 사용자 정의 코퍼스

내 목표는 문장이 얼마나 문법적으로 정확한 확인 할 수있는 API를 생성하는 것입니다 목표로, 문장의 정확성을 확인합니다. 나는 마르코프 체인을 사용하여 일련의 선들을 생성하고 있으며 얼마나 많은 의미가 있는지에 따라 순위를 매기기를 원합니다.

[ 
    "This sentence is totally great!", 
    "Not great so sentence this one.", 
    "From on in where is are for pig." 
] 

다음과 같은 몇 가지 출력을 얻을 : 내가

에서 현재 해요

[ 
    0.71, 
    0.30, 
    -0.43, 
] 

내가 좋아하는 몇 가지 입력을 할 수있게하려면 스탠포드 파서 (Stanford Parser)를 사용하여 보았습니다.하지만 자신의 코퍼스를 사용할 방법이 없다고 생각합니다.

현재 저는 Microsoft 조인트 확률인지 서비스를 사용하고 있습니다.이 서비스는 또한 사용자 지정 코퍼스를 허용하지 않으며 매우 초보적인 것처럼 보입니다.

직접 질문

이 해결 된 문제인가?

불리는이 종류의 문제/연구는 무엇입니까? (그래서 나는 그것에 대해 주위에 구글을 알아)

이런 식으로 뭔가를 달성하기위한 방법은 무엇입니까?

답변

0

스탠포드 파서에서 자신의 코퍼스를 사용할 수없는 이유를 모르겠지만 항상 OpenNLP을 사용할 수 있습니다.

는 여기에 내가 무엇을 할 것이라고입니다 :

  1. 일부 올바른 문장과 구문 분석 문장의 신체를 만들 수 있습니다. 여기서 멈춰서 네가하고있는 일을 할 수있어. 그렇지 않으면 2를 할 것입니다.

  2. word2vec 모델을 생성하고 파싱 된 입력 문장이 얼마나 유사 (코사인 유사성)인지 확인하십시오. 다행히도 좋은 결과를 얻을 수 있습니다.

OpenNLP를 사용하기 위해 빠른 시작 here을 가질 수 있습니다.

희망이 도움이됩니다.

0

귀하의 필요를 해결하는 가장 쉬운 방법은 귀하의 코퍼스에서 언어 모델을 작성한 다음 테스트 문장을 평가하여 점수를 부여하는 것입니다. 결과를보고보다 정교한 접근법이 필요한지 확인할 수 있습니다.

많은 데이터가있는 경우 10k 문장 정도의 경우 최대 6g, 더 적은 경우는 짧게하는 것이 좋습니다. 당신은 그것으로 놀아야 할 것입니다. 2-4 토큰 범위에서 토큰 언어 모델을 시도 할 수도 있습니다. LingPipe 용 자습서는 here입니다. 정확히는 유스 케이스는 아니지만 최소한 콘크리트입니다.

빌드하기 쉽고 코퍼스에 민감합니다.

수정 사항의 개선 여부를 알리는 보조 언어 모델로 맞춤법 교정을 수행하는 대신 맞춤법 검사 문제로 문제를 해결할 수 있습니다. 좋은 예상치를 얻으려면 편집이 많을수록 원래의 문법성에 대한 점수가 낮아집니다. 가장 가까운 코드는 자습서 here입니다.

그러나 문법 사용 사례에 적용하려면 많은 수정이 필요합니다.

언어 모델 접근 방식이 작동하지 않는 경우 문제를 해결할 수있는 방법은 여러 가지가 있지만 여기서 시작하겠습니다.

Breck

관련 문제