URL을 사용하여 웹 사이트 페이지에서 사용하는 자연어를 자동으로 결정하는 방법을 찾고 있습니다. 파이썬에서URL이 주어지면 웹 사이트 페이지의 자연 언어를 자동으로 결정합니다.
, 함수와 같은 : 언어 지정자를 반환
def LanguageUsed (url):
#stuff
(영어 예를 들어 '엉'일본어 'JP'등) 결과의
요약 : code from the PyPi for oice.langdet을 사용하여 Python으로 작업하는 합리적인 해결책이 있습니다. 영어와 영어를 차별화하는 데 괜찮은 일을합니다. Python urllib을 사용하여 html을 가져와야합니다. 또한, oice.langdet은 GPL 라이센스입니다.
파이썬에서 Trigrams를 사용하는보다 일반적인 해결책은 다른 사람이 제안한 것처럼 Python Cookbook Recipe from ActiveState을 참조하십시오.
Google Natural Language Detection API는 매우 잘 작동합니다 (내가 본 것 중 가장 좋지 않은 경우). 그러나 자바 스크립트이며 TOS는 사용을 자동화하지 않습니다.
위치 정보가 완전히 쓸모가 ... 궁금합니다. 세계는 여러 언어가 공존하는 곳이 많습니다. 그리고 웹 사이트는 다국어를 특징으로 할 수도 있습니다. –
내가 말했던 것은 그것이 어떤 사람들이 제안하는 TLD보다 낫다는 것이었고 여러 언어 문제를 다루었습니다. – tghw