언어 A의 언어 B에서 단어를 탐지하는 스크립트를 작성하고 있습니다.이 두 언어는 매우 유사하며 동일한 단어의 인스턴스를 포함 할 수 있습니다.외국어 검색
당신이에 관심이 있다면 내가 지금까지 가지고있는 코드는 여기에 있습니다 : https://github.com/arashsa/language-detection.git
여기 내 방법을 설명합니다 : 을 나는, 언어 B에서 언어 A의 bigrams의 목록을 bigrams의 목록을 작성 (언어 B의 작은 코퍼스, 언어 A의 큰 코퍼스). 그런 다음 공통적 인 모든 바이 그램을 제거합니다. 그런 다음 언어 A의 텍스트를 살펴보고 bigram을 사용하여 언어 A에서이를 감지하고 파일에 저장합니다. 그러나이 방법은 두 언어 모두에 공통적 인 단어를 많이 찾으며 서로 인접한 두 나라의 이름과 같은 이상한 바이 그램 및 기타 변형을 찾습니다.
내가 사용해도 좋은 제안, 자료, NLP 방법이 있습니까?
어떤 종류의 언어를 찾으려고합니까? –
스크립트를 유니 코드 (UNICODE)를 기반으로하면 언어를 탐지하는 데 많은 방법이 있습니다. 언어를 쉽게 감지 할 수 있습니다. –
음, 언어는 nynorsk와 bokmaal입니다 (노르웨이어의 두 변종이지만 두 언어로 분류 될 수 있습니다). –