2012-01-01 4 views
16

나는 항상 새로운 것을 배워야 만한다. 나는 새로운 과목을 배우는 과정을 신속하게 진행할 수있는 방법을 생각하려고 노력해 왔습니다. 나는 위키 피 디아 문서를 파싱하고 가장 가치있는 정보를 제외하고 모든 것을 제거하는 프로그램을 작성할 수 있다면 그것은 깔끔할 것이라고 생각했다.위키 백과 요약

위키 백과 문서를 PDFs에 가져 가서 처음 100 개의 문장을 추출하기 시작했습니다. 나는 각 문장마다 그것이 내가 얼마나 가치 있다고 생각하는지에 근거하여 점수를 주었다. 나는이 파일을 구문 분석하고 내가 준 값으로 각 문장의 상관 관계를 할 다양한 기능을 찾기 위해 시도

<sentence> 
<value> 
<sentence> 
<value> 
etc. 

:이 형식 다음 파일을 생성 끝났다. 나는 방금 기계 학습과 통계 및 기타 등등에 대해 배우기 시작 했으므로 여기서는 많은 실수를하고있다. 이것은 나의 최근 시도 : https://github.com/JesseAldridge/Wikipedia-Summarizer/blob/master/plot_sentences.py입니다.

나는 어떤 상관 관계도 전혀 생성하지 못하는 많은 것들을 시도했다. 평균 단어 길이, 기사에서의 위치 등. 어떤 종류의 유용한 관계를 만들어내는 유일한 방법은 문자열의 길이 (특히, 소문자 'e'의 수를 세는 것이 가장 효과적이었습니다). 하지만 좀 더 긴 문장은 유용한 정보를 포함 할 가능성이 더 커 보인다.

한 가지 흥미로운 기능을 발견했지만, 내부의 4 분위수를 계산하여 이상치를 제거하려고 시도했을 때 모든 문장에 대해 0을 반환하는 것으로 나타났습니다. 이것은 나에게 내가 잘못하고있는 다른 많은 것들에 대해 궁금해했다 ... 나는 또한 이것이이 문제에 접근하는 좋은 방법인지 궁금하다.

내가 올바른 길을 가고 있다고 생각하십니까? 아니면 그냥 바보의 심부름인가요? 링크 된 코드에 눈부신 결함이 있습니까? 누구든지 Wikipedia 기사를 요약하는 문제에 접근하는 더 좋은 방법을 알고 있습니까? 나는 오랫동안 함께 할 수있는 완벽한 무언가보다 더 빠르고 더러운 해결책을 갖고 싶습니다. 모든 일반적인 조언도 환영 할 것입니다.

+0

다음으로 신문 기사를 사용하여 스캔 한 기사를 더 짧게 만들 것을 원할 것입니다. – tylerthemiler

+4

분명히 너무 오래되었습니다. 16 세까지 이런 일을 남겨주세요. http://www.wired.com/gadgetlab/2011/12/summly-app-summarization/ – ColinE

+0

:) 멋지게 보입니다. 나는 내 iPod에서 실행할 수 없지만 리뷰를 읽을 수 있습니다. 그들은 꽤 섞여 있었다. 나는 그것이 잘 작동하지 않는다는 인상을 받았습니다. –

답변

13

질문이 프로그래밍 문제보다 연구 활동과 관련이 있다고 생각하면 과학 문학을 고려해야합니다. 여기서 원하는 알고리즘을 정확하게 수행 할 수있는 알고리즘에 대한 정보를 얻을 수 있습니다. 위를 읽으면

Single document Summarization based on Clustering Coefficient and Transitivity Analysis

Multi-document Summarization for Query Answering E-learning System

Intelligent Email: Aiding Users with AI

는 다음에 포함 된 참조를 따르 전체 재산을 발견 할 것이다 : "키워드 요약"에 대한 구글 검색은 다음과 발견 정보. 기능적 응용 프로그램을 만들 정도로 충분합니다. 그냥 내 두 센트

+2

자, 이제 구문 통 관계성 분석을 기반으로 종속성 그래프를 채우고 노드 연결을 측정하기 위해 클러스터링 계수를 사용해야합니다. 그렇다면 노드 삼각형을 꺼내어 핵심 문장을 추출하는 간단한 문제입니다. ffs ... 순전히 빠르고 더러운. 진지하게, 그러나 종이에 감사드립니다. 그게 내가 얻을 수있는 최고의 정보 일거야. –

+4

안녕하세요 ... 그 논문의 키워드를 성공적으로 요약했습니다. 아마도 이것은 기계적 터크의 직업입니다! – ColinE

1

은 ...

내가 위키 백과에 새로운 주제를 탐색하고 있습니다 때마다

, 나는 일반적으로 "폭 우선"검색을 수행; 과 각 페이지가 연결되는 모든 링크을 스캔 할 때까지 다른 주제로 이동하는 것을 거부합니다.이 주제는 이미 익숙하지 않은 주제를 소개합니다. 각 문단의 첫 번째 문장 을 읽고 원본 항목과 관련된 것으로 보이는 기사에서 뭔가가 보이면이 과정을 반복합니다.

나는 위키 백과 "요약 자"를위한 인터페이스를 디자인한다면, 나는

  1. 항상 전체 소개 단락을 인쇄 할 것이다.

  2. 기사의 나머지 부분에는 링크가있는 문장을 인쇄하십시오.

    2a. 쉼표로 구분 된 링크 목록을 글 머리 기호 목록으로 인쇄하십시오.

  3. 기사에 대한 링크가 "확장"된 경우 해당 기사의 첫 번째 단락을 인쇄하십시오.

  4. 소개 단락이 확장되면 링크가있는 문장 목록을 반복하십시오.

이 프로세스는 무기한 반복 될 수 있습니다.

내가 말하는 것은 위키피디아 기사를 요약하는 것이 잡지의 기사를 요약하거나 블로그에 게시하는 것과 같지 않다는 것입니다. 크롤링 행위는 Wikipedia를 통해 입문 개념을 빨리 배우는 중요한 부분이며, 나는 그것이 최고라고 느낍니다. 일반적으로 기사의 아래쪽 절반은 citation needed 태그가 시작되는 곳이지만 주어진 기사의 전반부는 커뮤니티에서 주어진 지식으로 간주됩니다.

관련 문제