Python을 사용하여 기사 또는 사용자의 게시물에서 태그를 선택하려면 어떻게해야합니까?Python을 사용하여 컨텍스트에서 태그를 자동으로 선택
다음 방법이 좋습니까?
텍스트에서 단어 빈도 목록을 작성하고 정렬하십시오.
일반적인 단어 몇 개를 제거하고 목록에 남아있는 상위 10 개 단어를 태그로 선택하십시오.
위의 방법을 사용하면 "the, if, you, etc."와 같은 단어가 일반적인 단어인지 검색 할 수 있으며 설명어는 무엇입니까?
Python을 사용하여 기사 또는 사용자의 게시물에서 태그를 선택하려면 어떻게해야합니까?Python을 사용하여 컨텍스트에서 태그를 자동으로 선택
다음 방법이 좋습니까?
텍스트에서 단어 빈도 목록을 작성하고 정렬하십시오.
일반적인 단어 몇 개를 제거하고 목록에 남아있는 상위 10 개 단어를 태그로 선택하십시오.
위의 방법을 사용하면 "the, if, you, etc."와 같은 단어가 일반적인 단어인지 검색 할 수 있으며 설명어는 무엇입니까?
여기에 기사가 removing stop words에 있습니다. 기사의 정지 단어 목록에 대한 링크가 깨 졌으나 here's another one입니다.
Natural Language Toolkit은 이러한 종류의 다양한 방법을 제공합니다. 이 주제에 익숙하지 않아서 직접적으로 조언을 드릴 수는 없지만 시작하기 전에 먼저이 주제에 대해 몇 가지를 읽으십시오. 바로 텍스트에서 단어를 직접 선택하면됩니다. 내가 생각하기에, 당신은 아마도 태그에 이미 존재하는 유사한 단어를 찾아야한다. 물론 "the"와 같은 언어의 일반적인 단어를 필터링해야합니다. 다시 말하지만,이 Python 라이브러리는 적어도 몇 가지 공통 언어에 대해이 작업을 도와줍니다.
나는 당신에게 download the Stack Overflow data dump를 제안 할 것입니다. 거기에서 적절한 태그를 사용하여 다양한 실제 게시물을 가져와 다른 태그 선택 알고리즘을 테스트 할 수 있습니다.
하지만 일반적으로 너무 잘 작동하는지는 의심 스럽습니다. 자신의 질문에 대해 "단어"는 단어 수의 분명한 승자이며, "공통", "목록", "방법", "선택"및 "태그"와 같은 두 가지 모양의 단어 목록이 뒤 따릅니다. 다음 중 자동으로 태그로 선택 하시겠습니까? 또한 수동으로 선택한 태그에는 "파이썬"과 "컨텍스트"가 포함되며 높은 단어 빈도로 나타나지 않습니다.
태그가 아니어야하는 단어를 차단하는 대신, 좋은 태그를 만들 수있는 단어의 화이트리스트를 작성하는 것이 어떻습니까? 당신이 Python
이 off-topic
는, football
이 rickroll
또는 이것 저것이 (당신이 구축 사이트!의 종류에 따라 다름)처럼 가지고 만 사이에 제안 시스템을 가지고 싶습니다 태그의 소수와
시작,하자 사용자는 적절한 태그를 손으로 가리거나 자신의 태그를 입력 할 수 있습니다.
충분한 사용자가 태그를 제안하면 자동 제안을 위해 "잘 알려진"태그 풀에 들어갑니다. 어쩌면 검토 일종의 태그인데 the
, lolol
또는 타이핑 된 태그와 같은 바보 같은 태그를 여전히 차단할 수 있습니다. object-oriented
일 때 objectoriented
처럼 표시됩니다.
몇 가지 제안 만 표시하십시오. 제안 자동 완성. 항목 당 태그 수를 제한하십시오. 이것이 코딩에 관한 것이라면 어쩌면 어떤 종류의 언어 탐지 시스템 (file
리눅스 명령이 너무 초라한 것이 아닙니다)이 여러분의 제안 시스템에 도움이 될 것입니다.
태그가 지정된 데이터가있는 베이 스나 피셔 필터 (예 : sth에서 제안한 Stackoverflow 데이터 덤프)를 학습하고 새 게시물을 분류하는 데 사용합니다. 이 주제에 대한 더 많은 정보와 파이썬 예제를 위해서는 Toby Segaran이 만든 훌륭한 Programming Collective Intelligence 책을 읽는 것이 좋습니다.