2017-11-09 4 views
0

저는 lxml, html에 매우 익숙합니다.
사용하는 언어를 알고 싶습니다. (페르시아어 - 영어 - 아랍어 등)
웹 사이트에서 메타 태그를 사용할 수 있습니까? 예를 들어 ---> (메타 태그, http-equiv).
어떻게 그 값을 읽을 수 있습니까?파이썬으로 웹 사이트의 페이지 언어를 어떻게 얻을 수 있습니까?

이러한 태그는 유효하다고 간주되며 웹 사이트에서 자주 사용됩니까?

+0

에서 찾을 수있는 [HTTP 헤더] 당신이 응답 수 (https://en.wikipedia.org/wiki/List_of_HTTP_header_fields#Response_fields) . 어쩌면'콘텐츠 언어 '일까요? – Holloway

+0

@Holloway 그러나이 질문의 응답을 들었을 때 나는 전혀 'Content-Language'를 보지 못했습니다. – Szabolcs

+0

두 가지 질문이 있습니다 : 1/* HTML 웹 페이지에서 언어를 식별하는 방법 * 및 2/* Python *에서이를 수행하는 방법. 그들은 서로 다른 문제입니다. –

답변

0

HTTP 헤더이

내용 - 언어처럼 보일 수는 :
컨텐츠 형 말이지 : text/html과; 문자셋 = UTF-8

을하지만 문서가 말한다 스페인어 연사를위한 것입니다 (단,이 문서는 스페인어로 작성되었으므로 예를 들어 스페인어 사용자를위한 언어 과정의 일부로 영어로 작성 될 수 있음).

또는 사양 인용하기 :

콘텐츠-Language entity-header 필드는 포함하고있는 엔터티 대상 청중의 자연 언어를 설명합니다. 이는 엔티티 본문에 사용 된 모든 언어와 동일하지 않을 수 있습니다.

웹 사이트 작성자가 적절한 태그를 사용하기로 결정한 경우 루트 수준에 있어야합니다.

<html lang="es"> 

키워드가 "선택됨"입니다. 저자는 이것을 할 의무가 없습니다.

웹 사이트의 언어를 감지하는 가장 좋은 방법은 콘텐츠를 긁어내어 컴퓨터 학습 알고리즘을 던지기위한 것입니다.

가장 간단한 것은 NGrams이며, 여전히 높은 정확도를 유지합니다 (정보를 얻을 수있는 충분한 텍스트가있는 경우).

자세한 내용은 당신에서 그것을 얻을 가능성이 높아 https://en.wikipedia.org/wiki/N-gram

+0

도움 주셔서 대단히 감사합니다. 큰 문제가 있습니다. 저는 기계 학습에 대해 잘 아는 사람이 아닙니다. 더 빨리 배워야합니다 (기계 학습 알고리즘)? – hami

관련 문제