답변
다음 코드 조각을 보았습니까? http://groups.google.com/group/nltk-users/browse_thread/thread/a5f52af2cbc4cfeb?pli=1&safe=active
또는 다음 데모 파일에서
english_vocab = set(w.lower() for w in nltk.corpus.words.words())
text_vocab = set(w.lower() for w in text if w.lower().isalpha())
unusual = text_vocab.difference(english_vocab)
?
https://github.com/saffsd/langid.py
이 가져 매우 간단하고 많은 수의 포함이이 NLTK에 아니지만
, 나는 또 다른 파이썬 기반 라이브러리 좋은 결과를 있었다 그 모델의 언어.
이 라이브러리는 NLTK이 아니지만 분명 도움이됩니다.
$ sudo를가 langdetect 설치 PIP
지원 파이썬 버전 2.6, 2.7, 3.x를
>>> from langdetect import detect
>>> detect("War doesn't show who's right, just who's left.")
'en'
>>> detect("Ein, zwei, drei, vier")
'de'
https://pypi.python.org/pypi/langdetect?
P.S이 올바르게 항상 일을 기대하지 마십시오 .: :
>>> detect("today is a good day")
'so'
>>> detect("today is a good day.")
'so'
>>> detect("la vita e bella!")
'it'
>>> detect("khoobi? khoshi?")
'so'
>>> detect("wow")
'pl'
>>> detect("what a day")
'en'
>>> detect("yay!")
'so'
항상 작동하지 않는다는 것을 지적 해 주셔서 감사합니다. '감지 ("너 집으로 만들었 어!")''나에게 "fr"을주고있다. 나는 더 좋은 것이 있는지 궁금합니다. –
다른 재미있는 관찰이 있습니다. 매번 같은 대답을주는 것 같지 않습니다. '>>> detect_langs ("안녕하세요, 전 기독교인입니다.") [it : 0.8571401485770536, ko : 0.14285811674731527] >>> detect_langs ("안녕하세요, 저는 기독교인입니다.") [it : 0.8571403121803622, fr : 0.14285888197332486] >>> detect_langs ("안녕하세요, 전 기독교인입니다.") [it : 0.999995562246093]' –
- 1. 브라우저 언어 감지 및 nullreference 예외 방지
- 2. Emacs에서 언어 자동 감지
- 3. PHP에서 프로그래밍 언어 감지
- 4. nltk 및 python을 사용하는 코드
- 5. pydev의 NLTK
- 6. HTML 양식의 언어 감지 방법
- 7. 파이썬의 NLTK 대 관련 자바 라이브러리?
- 8. MEGAM을 NLTK ClassifierBasedPOSTagger로 사용하려고합니까?
- 9. WPP의 IronPython에서 NLTK
- 10. 동아시아 언어 지원을 감지 할 수 있습니까?
- 11. Python NLTK 태그 지정 AssertionError
- 12. 감정 추출을위한 파이썬 코드에서 nltk
- 13. 파이썬 NLTK 시제 알아 내기
- 14. "페이지 설명 언어"및 "마크 업 언어"
- 15. Doxygen 및 어셈블리 언어
- 16. WIQL 및 기타 언어
- 17. UI 글꼴 및 언어
- 18. sIFR 및 RTL 언어
- 19. Python에서 NLTK 툴킷의 기본 청크는 무엇입니까?
- 20. 피치 감지 및 변경
- 21. 세션 감지 및 종료
- 22. UIWebView 및 제스처 감지
- 23. IronPython을 통해 C#에서 NLTK 사용
- 24. 파이썬 정규 표현식 nltk 웹 사이트 추출
- 25. 코드에서 nltk 데이터 디렉토리를 설정하는 방법은 무엇입니까?
- 26. 어셈블리 언어 도구 및 참조
- 27. SQL보고 서비스 및 언어 문제
- 28. 쉘 스크립팅 및 기타 언어
- 29. 웹 프로그래밍을위한 언어 및 도구
- 30. 동적 언어 및 변수 할당
PS는 여전히하지만, nltk.detect에 의존했다. Mac에 설치하는 방법에 대한 아이디어가 있습니까? – niklassaers
나는 detect가 nltk의 기본 모듈이라고 믿지 않습니다. 다음 코드는 다음과 같습니다. http://docs.huihoo.com/nltk/0.9.5/api/nltk.detect-pysrc.html 아마도 다운로드하여 파이썬 라이브러리에 넣을 수 있습니다. : /Library/Python/2.x/site-packages/nltk ... –
이것을 확인하십시오. http://blog.alejandronolla.com/2013/05/15/detecting-text-language-with-python -and-nltk/ –