2016-07-19 4 views
2

파이썬뿐만 아니라 자바에 몇 가지 api가 있으며 일부 온라인 데모도 시도했지만 모든 API는 문장을 전체적으로 가져 와서 전체적인 가능성있는 언어를 제공합니다. 필자의 경우, 같은 줄에 여러 언어가 있기 때문에 문장의 의미를 그대로 유지하면서 영어를 제외한 언어를 제거해야합니다.같은 줄에서 여러 언어를 어떻게 검색합니까?

예 : 오수 탱크

  1. 안전. 위험한 냄새가 나는 군. 서늘하고 건조한 장소에 저장./Ranger는 endroit frais et sec를 사용하지 않습니다. 청소
  2. 4 배 농축 된 더 나은 * 4X PLUS 모으다 POUR MIEUX NETTOYER *
  3. 인산염 무료 SANS 인산염
  4. 프록터 & 갬블 INC를 부어 IMPORTE/수입., 토론토, 내가 믿는 1C5
+0

상수에서 읽는이 템플릿입니까 ?? 그렇다면 정규 표현식을 사용하여 필요한 부분을 긁어내어 영어 서식 파일 만 동적으로 준비 할 수 있습니다. – praveen

+0

또한 시도한 내용의 코드 발췌 부분을 추가하고 사용한 라이브러리에 대해 언급하십시오. – praveen

+0

@praveen 입력이 일정하지 않습니다. pdfbox가 읽는 pdfs입니다. 텍스트에는 여러 언어가 있습니다. – Saurav

답변

0

M5W ON 당신이 코멘트를 읽는 것으로부터 취한 방향은 최선의 해결책입니다. "나는 문장 전체를 단어로 바꾸고 각 단어의 언어를 확인하려고 노력했다." 그러나 bag of words algorithm 개발을 고려해야합니다.

단순히 문장에있는 모든 단어의 출현을 계산하여 해당 단어가 속한 색인이있는 목록에 저장하십시오. 그러나 하나의 문장으로 여러 언어를 감지하면 여러 목록을 필요로하는 단어를 공유 할 수 있습니다. 언어 단어가 가장 많이 나오는 목록은 문장의 각 부분의 언어를 결정합니다. 정화조에 대한

안전 : 작은 샘플 공간이 더 부정확 한 결과로

This is an English sentence written in english,dans un endroit frais et sec 
[english:english:2][this:english:1][is:english:1][an:english:1][sentence:english:1][written:english:1][in:english:1] 
[dans:french:1][un:french:1][endroit:french:1][et:french:1][sec:french:1] 

this->beginning->list index 0, sentence->end of english->list index 3 

그러나이 여전히 예에 오류가 발생할 수 있습니다. 위험한 냄새가 나는 군. 서늘하고 건조한 장소에 저장./Ranger는 endroit frais et sec를 사용하지 않습니다.

어쨌든 의미가 이런 종류의 희망과는 어떻게든지에 도움이 찾을 수 있도록 희망 (모든 말은 늘 그들 만이 연속적으로에 속하는 언어의 합으로, 단어의 개수에 의해 언어를 결정하는 데 도움이 단지 어떤 한 번 발생) 해결책. 의견을 말씀해 주시면 귀하의 질문에 도움을 드리겠습니다.

관련 문제