2012-06-20 3 views
0

저는 문장으로 질문을 생성하는 프로젝트를 진행하고 있습니다. 지금 저는 다음과 같은 질문을 던질 수있는 시점에 있습니다 : "Angela Merkel은 독일의 성직자입니다." -> "안젤라 메르켈은 누구인가?"기계 번역 시스템을 통한 영어 쿼리 생성

이제 질문은 "누가 ..."처럼 보이길 원합니다. 대신. 내가 아직 생각하지 못했던 이것을 할 수있는 쉬운 방법이 있습니까?

현재 나의 생각은 모세와 같은 기존의 기계 번역 엔진을 사용하여 영어 (질문이 아닌) 영어 번역기를 훈련시키는 것입니다. 이 과잉인가요? 얼마나 많은 데이터가 필요합니까? 이 문제 나 이와 유사한 문제를 해결하는 것이 있습니까? 이 작업에 적합한 일반 번역 엔진을 사용하고 있습니까?

답변

0

질문 생성에 관한 배경 정보는 Michael Heilman의 논문 Automatic Factual Question Generation from Text을 확인하고이 문제에 대한 접근 방법을 확인하십시오. "질문 생성"에 대한 조사를 검색하면 더 많은 것을 찾을 수 있습니다. 그는 Microsoft의 자료 인 Microsoft Research Question-Answering Corpus을 언급합니다.

(현재) 통계적 기계 번역 접근법만을 기반으로 한 접근법은 잘 작동 할 것이라고 생각하지 않습니다. 왜냐하면 일반적으로 좋은 문장을 작성하기 위해 소스 구문에 대한 더 깊은 구문 분석이 필요하기 때문입니다 적절한 질문을 만들어야합니다. 예제와 같은 간단한 질문의 경우 구문 트리 변환을 사용하여 질문을 생성하는 것이 매우 쉽지만 문장이 조금 복잡 해지 자마자 훨씬 까다로워집니다.

0

내 머리 꼭대기에서 벗어나 상대적으로 간단한 질문으로 제한하면 구문 분석을 수행하고 요소를 뒤집어 질문을 얻을 수 있습니다. 어떻게 질문 단어를 결정합니까? 누가, 무엇을, 어디서, 왜 ... 당신은 문장의 요소를 보는 분류자를 필요로 할 것입니다. 안젤라 메르켈은 사람/이름으로 분류하기 쉬워야하므로 '누가', 베를린은 지리 정보 사전에 있어야 'Where'를 얻을 수 있습니다.

특정 소프트웨어에 대해서는 확신 할 수 없지만 NLTK를 사용하여 종속성 구문 분석을 사용하고 어떤 분류 체계를 사용하든 관계없이 사용할 수 있습니다.

궁극적으로 성공은 입력 및 출력 공간의 크기에 달려 있습니다. 나는 가능한 가장 단순한 문제를 먼저 생각한다.

+0

지금 당장은 Named Entitiy Recognition을 사용합니다. 그 명명 된 개체에 대한 질문 단어를 결정하는 것은 꽤 간단합니다. – kutschkem

+0

소리가 좋습니다. 번역기를 사용하여 질문을 만들려고 했습니까? 비슷한 가능성은 질문 양식에 의존성 분석을 수행하는 데 필요한 실제 단계를 훈련하는 것일 수도 있습니다. – nflacco

+0

아니오, 적절한 훈련 세트가 필요할 것이므로 아니오, 나는 가지고 있지 않습니다. 그러한 변형을 수행/훈련하는 방법에 대한 참고 자료를 알고 있습니까? 지금은 바이너리 및 멀티 클래스 분류 만 있었지만 생각은 좀 더 복잡해 보입니다. 그리고 그러한 변환을 배울 수있는 알고리즘을 가지고 있더라도 - 어디에서 훈련 데이터를 얻을 수 있습니까? – kutschkem

관련 문제