2012-03-23 2 views

기본적으로 지식 기반 질문 응답 시스템 인 프로젝트를 진행 중입니다. 내 시스템은 사용자로부터 쿼리를 받고, 위키피디아에서 관련 문서를 다운로드하고, 모든 HTML 태그를 제거하고 일반 텍스트를 추출합니다. 그런 다음 문서를 문장으로 토큰 화 한 다음 TD (term-document) 행렬을 만듭니다 (이 쿼리는 문장으로도 전달됩니다). 이 TD 매트릭스는 pLSA (Probabilistic Latent Symentic Analysis) 알고리즘으로 전달됩니다. 마지막으로, 질의 벡터를 갖는 문서 (문장) 벡터들 사이의 코사인 유사성을 계산한다. 쿼리 벡터와의 유사성을 바탕으로 가장 관련성 높은 문장이 답으로 표시됩니다. (스테밍은 또한 TD 매트릭스의 형성에서 이루어집니다). 문제는 is가 결과를 표시하지만 가장 관련성이 없다는 것입니다. 내가 어디로 잘못 가고 있니? 내가 따르고있는 전략이 맞습니까, 아니면 다른 알고리즘이 도움이 될 수 있습니까 ?? 내 시스템에 의해 반환 나는 아래 는 질문과 답변의 일부를 보여지식 기반 Q-A 시스템이 가장 적합한 대답을 제공하지 않음

What is photosynthesis? 
ANSWER 1 : The stroma contains stacks (grana) of thylakoids, which are the site of photosynthesis 

ANSWER 2 : Factors leaf is the primary site of photosynthesis in plants 

ANSWER 3 : Samuel Ruben and Martin Kamen used radioactive isotopes to determine that the oxygen liberated in photosynthesis came from the water 

ANSWER 4 : In plants, algae and cyanobacteria, photosynthesis releases oxygen 

또 다른 질문

What is Artificial Intelligence? 
ANSWER 1 : the problem of creating 'artificial intelligence' will substantially be solved" 

ANSWER 2 : 37 The leading-edge definition of artificial intelligence research is changing over time 

ANSWER 3 : Stories of these creatures and their fates discuss many of the same hopes, fears and ethical concerns that are presented by artificial intelligence 

ANSWER 4 : History of artificial intelligence and Timeline of artificial intelligence Thinking machines and artificial beings appear in Greek myths , such as Talos of Crete , the bronze robot of Hephaestus , and Pygmalion's Galatea 13 Human likenesses believed to have intelligence were built in every major civilization 

또 다른 질문

Who is a hacker? 

ANSWER 1 : 19 Hackers (short stories) Helba from the 

ANSWER 2 : 16 Rafael Núñez aka RaFa was a notorious most wanted hacker by the FBI since 2001 

ANSWER 3 : Often, this type of 'white hat' hacker is called an ethical hacker 
ANSWER 4 : Hackers also commonly use port scanners 

또 다른 실행

What is biology? 
ANSWER 1 : Molecular biology is the study of biology at a molecular level 

ANSWER 2 : molecular biology studies the complex interactions of systems of biological molecules 

ANSWER 3 : The similarities and differences between cell types are particularly relevant to molecular biology 

ANSWER 4 : Contents History Foundations of modern biology 2 



전체 통계 접근법을 유지한다면 시스템을 향상시키는 것이 어려울 것이라고 생각합니다. 통계적인 NLP 관점에서, 당신은 정말로 옳은 일을합니다. 이제 매개 변수를 세밀하게 조정할 수 있습니다. 그러기 위해서는 올바른 답이 무엇인지 시스템에 알려서 교육 자료를 작성해야합니다. 그런 다음이 답을 얻기 위해 매개 변수의 가치를 확인해야합니다.

즉, 나는 미세 조정 매개 변수가 20 % ~ 30 % 이상 정확도를 향상시킬 것이라고 생각하지 않습니다.

더 자세히 살펴 보려면 더 의미 론적 인 접근이 필요하며, 지식을 상징적으로 표현해야합니다. 확인하십시오 http://www.jfsowa.com/


질문 답변 (QA)이라고하는 잘 연구 된 문제입니다. QA에 대한 요약을 another answer에 입력했습니다. 특히 모든 예는 TREC에 따라 "정의 질문"범주에 속합니다. 아이디어를 얻으려면 Google 또는 Google Scholar에있는 "TREC 정의 질문"의 쿼리로 인해 작성된 일부 논문을 살펴볼 것을 제안합니다.

관련 문제