M5W ON 당신이 코멘트를 읽는 것으로부터 취한 방향은 최선의 해결책입니다. "나는 문장 전체를 단어로 바꾸고 각 단어의 언어를 확인하려고 노력했다." 그러나 bag of words algorithm 개발을 고려해야합니다.
단순히 문장에있는 모든 단어의 출현을 계산하여 해당 단어가 속한 색인이있는 목록에 저장하십시오. 그러나 하나의 문장으로 여러 언어를 감지하면 여러 목록을 필요로하는 단어를 공유 할 수 있습니다. 언어 단어가 가장 많이 나오는 목록은 문장의 각 부분의 언어를 결정합니다. 정화조에 대한
안전 : 작은 샘플 공간이 더 부정확 한 결과로
This is an English sentence written in english,dans un endroit frais et sec
[english:english:2][this:english:1][is:english:1][an:english:1][sentence:english:1][written:english:1][in:english:1]
[dans:french:1][un:french:1][endroit:french:1][et:french:1][sec:french:1]
this->beginning->list index 0, sentence->end of english->list index 3
그러나이 여전히 예에 오류가 발생할 수 있습니다. 위험한 냄새가 나는 군. 서늘하고 건조한 장소에 저장./Ranger는 endroit frais et sec를 사용하지 않습니다.
어쨌든 의미가 이런 종류의 희망과는 어떻게든지에 도움이 찾을 수 있도록 희망 (모든 말은 늘 그들 만이 연속적으로에 속하는 언어의 합으로, 단어의 개수에 의해 언어를 결정하는 데 도움이 단지 어떤 한 번 발생) 해결책. 의견을 말씀해 주시면 귀하의 질문에 도움을 드리겠습니다.
상수에서 읽는이 템플릿입니까 ?? 그렇다면 정규 표현식을 사용하여 필요한 부분을 긁어내어 영어 서식 파일 만 동적으로 준비 할 수 있습니다. – praveen
또한 시도한 내용의 코드 발췌 부분을 추가하고 사용한 라이브러리에 대해 언급하십시오. – praveen
@praveen 입력이 일정하지 않습니다. pdfbox가 읽는 pdfs입니다. 텍스트에는 여러 언어가 있습니다. – Saurav