2011-08-17 5 views
5

여기 내 문제가 있습니다. 나는 두 단락의 문안을 가지고 있으며, 그들이 유사한 지 알아볼 필요가있다. 문자열 메트릭스의 의미가 아니라 의미입니다. 다음 두 단락은 관련되어 있지만 '동일한'주제를 다루고 있는지 알아야합니다. 이 문제를 해결하기위한 도움이나 방향이 있으면 크게 감사하겠습니다.유사점에 대한 두 개의 영문 문자열 비교

화석 연료는 혐기성 매장 생물의 분해와 같은 자연 과정에 의해 형성된 연료입니다. 유기체의 나이와 그들의 결과 화석 연료 인 은 일반적으로 수백만 년이고 은 때로는 6 억 5 천만 년을 초과합니다. 의 높은 비율의 탄소를 포함하는 화석 연료에는 석탄, 석유 및 천연 가스가 포함됩니다. 화석 연료는 저탄소의 휘발성 물질에서 메탄과 같은 수소, 액체 석유와 비 휘발성 물질의 혼합물로 이루어져있다. 무연탄과 같이 거의 순수한 탄소로 이루어져있다. 메탄은 석유와 관련된 탄화수소 장에서 또는 메탄 포접 화합물 형태로 발견되는 일 수있다. 그들은 열에 노출되어 죽은 식물의 화석화 된 유물에서 을 형성했으며 수백만 년에 걸쳐 지구의 지각에 대한 압력이 이라는 것으로 일반적으로 받아 들여지고있다. 이 생체 유전 이론은 처음으로 Georg Agricola에 의해 1556 년에 도입되었으며 이후에는 Mikhail Lomonosov에 의해 18 세기에 도입되었습니다. 둘째

:

화석 연료 개질 반응은 천연 가스 등의 화석 연료로부터 수소 또는 다른 유용한 제품을 제조하는 방법이다. 이것은 증기를 화석 연료와 반응시키는 개질기 라 불리는 처리 장치에서 달성 된 입니다. 증기 메탄 개질기 은 산업에서 수소를 만들기 위해 널리 사용됩니다. 또한 에 대한 관심은 유사한 기술을 기반으로 한 훨씬 더 작은 단위의 개발로 은 연료 전지의 공급 원료로 수소를 생산합니다. 소규모 증기 연료 전지를 공급하는 개질 장치는 현재 연구 및 개발의 대상이며 일반적으로 메탄올 또는 천연 가스의 개질을 포함하지만 다른 연료도 프로판, 가솔린, 오토 가스, 디젤 연료, 및 에탄올.

답변

3

일반적으로 나는 이것이 여전히 열려있는 문제라고 생각합니다. 자연어 처리는 여전히 초기 단계에 있으며 몇 가지 사항을 잘 수행 할 수는 있지만 이러한 종류의 분류 및 분류는 여전히 매우 어렵습니다.

저는 NLP의 전문가는 아니지만, 정서 분석 및 저자 검색을 설명하는 these lecture slides을 확인하고 싶을 수 있습니다. 제안한 텍스트 비교를 수행하는 데 사용할 수있는 기법은 앞서 설명한 분석에 사용할 기법과 관련되어 있으며,이를 사용하면 좋은 출발점이 될 수 있습니다.

희망이 도움이됩니다.

2

또한 기계 학습에서 LDA (Latent Dirichlet Allocation) 모델을 살펴볼 수도 있습니다. 아이디어는 각 문서 (또는 문단)의 저 차원 표현을 발견하는 것입니다. 단순히 일부 '주제'에 대한 분포로만 나타납니다. 모델은 문서/단락 모음을 사용하여 감독되지 않은 방식으로 교육됩니다.

LDA를 단락 모음에서 실행하면 숨겨진 주제 벡터의 유사성을 살펴보면 주어진 두 단락이 관련되어 있는지 여부를 확인할 수 있습니다.

물론 기준선은 LDA를 사용하지 않고 대신 유사성 (벡터 공간 모델)을 측정하기 위해 빈도라는 용어를 사용합니다 (tf/idf로 보강).