-2

두 개의 문서 A와 B가 있습니다. 설명을 위해 다음과 같이하십시오. 각 문서는 한 페이지에 있습니다. 페이지에는 텍스트 및 숫자 형식의 정보가 들어 있습니다.다른 문서에서 하나의 문서 번호 찾기

내 목표는 문서 B에서 정확히이 발생하는 문서 A의 모든 숫자를 표시하는 것입니다. 그러나 숫자의 컨텍스트도 고려하는 것이 정말로 중요합니다. 예 :

  • "A"는 다음과 같은 문장이 포함
  • "B"는 다음과 같은 문장이 들어 "2017 년 내 월급이 50 000 €이다": "2016 년 내 월급이 50 000 €이다"와 " 2017 년 내 월급은 50 000 € "여기

컴퓨터에 표시해야합니다"수는 없을 것보다 B의 첫 번째 문장이 있으면 때문에 B의 두 번째 문장의 50 000 "입니다 두드러진.

내 질문은 : 이것은 CNN (Convolutional Neural Networks) 또는 SVM (Support Vector Machines)과 같은 기계 학습 기술을위한 용도입니까? 어쩌면 구문 분석이나 문자열 인식 (또는 비슷한)이 문제를 해결할 수 있지만 기계 학습 방법을 더 정확한 결과를 제공 할 것이라고 믿습니다!

아마도 내 목표에 더 적합한 다른 기술이있을 수 있습니다.

도움 주셔서 감사합니다.

답변

1

문장의 크기가 고정되어 있으면 크기 (문장) -chunks로 문서 B를 나눌 수 있으며 원본 문장에서 모든 청크까지 거리를 측정 할 수 있습니다. 가장 작은 거리는 가장 비슷한 문장을 의미합니다.

그렇지 않으면 청크가 유연한 반복 알고리즘을 개발할 수 있습니다.

두 경우 모두 클러스터링 또는 가장 가까운 인근 알고리즘을 맨 위에 배치 할 수 있습니다. 어쨌든 문장의 차이가 실제로 한 단어라면 문제가되지 않으며 거리 접근법만으로 충분합니다.

불행히도 CNN 또는 SVM을 통해이 작업을 해결하는 방법을 알 수 없습니다. RNN을 의미했을까요? 어쩌면 흥미로운 접근법이지만 설명했던 프로젝트에는 해당되지 않습니다. :) 그러나 나는 단지 모르는 세부 사항이 두려웠습니다.

추신 : 최근에 나는 클러스터링을위한 맞춤형 RNN 접근 방식을 찾고있었습니다. 어떻게 든 작동합니다. 시도해 볼 수 있습니다.

+0

도움 주셔서 감사합니다. 아마도 가장 작은 거리를 사용하는 대신 임계 값을 구현할 수도 있습니다. 때로는 숫자가 B로 표시되지 않기 때문입니다! 가장 작은 거리는 오류보다 더 길어질 것입니다. 그러나 그것은 좋은 힌트입니다! 내가 조금 익숙한 유일한 방법은 NN, 특히 CNN과 SVM이다. 그래서 나는 이것을 사용하기가 더 쉬울 것이다. 그러나 나는이 방법이 쓸모 없다는 것을 알았다. 아마도 RNN이 내 문제를 해결할 것입니다. 나는 약간의 정보를 수집 할 것이다! 감사합니다 :) – Jannik

+0

이 경우에는 맞춤 거리 측정 기준이 필요합니다. 예를 들어, 단어 차이는 괜찮지 만 숫자 차이는 중요합니다. – avchauzov

+0

나는 그것을 고려할 것이다! 고맙습니다 – Jannik

관련 문제