2009-11-21 3 views
4

Python을 사용하여 기사 또는 사용자의 게시물에서 태그를 선택하려면 어떻게해야합니까?Python을 사용하여 컨텍스트에서 태그를 자동으로 선택

다음 방법이 좋습니까?

  1. 텍스트에서 단어 빈도 목록을 작성하고 정렬하십시오.

  2. 일반적인 단어 몇 개를 제거하고 목록에 남아있는 상위 10 개 단어를 태그로 선택하십시오.

위의 방법을 사용하면 "the, if, you, etc."와 같은 단어가 일반적인 단어인지 검색 할 수 있으며 설명어는 무엇입니까?

답변

3

Natural Language Toolkit은 이러한 종류의 다양한 방법을 제공합니다. 이 주제에 익숙하지 않아서 직접적으로 조언을 드릴 수는 없지만 시작하기 전에 먼저이 주제에 대해 몇 가지를 읽으십시오. 바로 텍스트에서 단어를 직접 선택하면됩니다. 내가 생각하기에, 당신은 아마도 태그에 이미 존재하는 유사한 단어를 찾아야한다. 물론 "the"와 같은 언어의 일반적인 단어를 필터링해야합니다. 다시 말하지만,이 Python 라이브러리는 적어도 몇 가지 공통 언어에 대해이 작업을 도와줍니다.

2

나는 당신에게 download the Stack Overflow data dump를 제안 할 것입니다. 거기에서 적절한 태그를 사용하여 다양한 실제 게시물을 가져와 다른 태그 선택 알고리즘을 테스트 할 수 있습니다.

하지만 일반적으로 너무 잘 작동하는지는 의심 스럽습니다. 자신의 질문에 대해 "단어"는 단어 수의 분명한 승자이며, "공통", "목록", "방법", "선택"및 "태그"와 같은 두 가지 모양의 단어 목록이 뒤 따릅니다. 다음 중 자동으로 태그로 선택 하시겠습니까? 또한 수동으로 선택한 태그에는 "파이썬"과 "컨텍스트"가 포함되며 높은 단어 빈도로 나타나지 않습니다.

0

태그가 아니어야하는 단어를 차단하는 대신, 좋은 태그를 만들 수있는 단어의 화이트리스트를 작성하는 것이 어떻습니까? 당신이 Pythonoff-topic는, footballrickroll 또는 이것 저것이 (당신이 구축 사이트!의 종류에 따라 다름)처럼 가지고 만 사이에 제안 시스템을 가지고 싶습니다 태그의 소수와

시작,하자 사용자는 적절한 태그를 손으로 가리거나 자신의 태그를 입력 할 수 있습니다.

충분한 사용자가 태그를 제안하면 자동 제안을 위해 "잘 알려진"태그 풀에 들어갑니다. 어쩌면 검토 일종의 태그인데 the, lolol 또는 타이핑 된 태그와 같은 바보 같은 태그를 여전히 차단할 수 있습니다. object-oriented 일 때 objectoriented처럼 표시됩니다.

몇 가지 제안 만 표시하십시오. 제안 자동 완성. 항목 당 태그 수를 제한하십시오. 이것이 코딩에 관한 것이라면 어쩌면 어떤 종류의 언어 탐지 시스템 (file 리눅스 명령이 너무 초라한 것이 아닙니다)이 여러분의 제안 시스템에 도움이 될 것입니다.

1

태그가 지정된 데이터가있는 베이 스나 피셔 필터 (예 : sth에서 제안한 Stackoverflow 데이터 덤프)를 학습하고 새 게시물을 분류하는 데 사용합니다. 이 주제에 대한 더 많은 정보와 파이썬 예제를 위해서는 Toby Segaran이 만든 훌륭한 Programming Collective Intelligence 책을 읽는 것이 좋습니다.

관련 문제