나는 항상 새로운 것을 배워야 만한다. 나는 새로운 과목을 배우는 과정을 신속하게 진행할 수있는 방법을 생각하려고 노력해 왔습니다. 나는 위키 피 디아 문서를 파싱하고 가장 가치있는 정보를 제외하고 모든 것을 제거하는 프로그램을 작성할 수 있다면 그것은 깔끔할 것이라고 생각했다.위키 백과 요약
위키 백과 문서를 PDFs에 가져 가서 처음 100 개의 문장을 추출하기 시작했습니다. 나는 각 문장마다 그것이 내가 얼마나 가치 있다고 생각하는지에 근거하여 점수를 주었다. 나는이 파일을 구문 분석하고 내가 준 값으로 각 문장의 상관 관계를 할 다양한 기능을 찾기 위해 시도
<sentence>
<value>
<sentence>
<value>
etc.
:이 형식 다음 파일을 생성 끝났다. 나는 방금 기계 학습과 통계 및 기타 등등에 대해 배우기 시작 했으므로 여기서는 많은 실수를하고있다. 이것은 나의 최근 시도 : https://github.com/JesseAldridge/Wikipedia-Summarizer/blob/master/plot_sentences.py입니다.
나는 어떤 상관 관계도 전혀 생성하지 못하는 많은 것들을 시도했다. 평균 단어 길이, 기사에서의 위치 등. 어떤 종류의 유용한 관계를 만들어내는 유일한 방법은 문자열의 길이 (특히, 소문자 'e'의 수를 세는 것이 가장 효과적이었습니다). 하지만 좀 더 긴 문장은 유용한 정보를 포함 할 가능성이 더 커 보인다.
한 가지 흥미로운 기능을 발견했지만, 내부의 4 분위수를 계산하여 이상치를 제거하려고 시도했을 때 모든 문장에 대해 0을 반환하는 것으로 나타났습니다. 이것은 나에게 내가 잘못하고있는 다른 많은 것들에 대해 궁금해했다 ... 나는 또한 이것이이 문제에 접근하는 좋은 방법인지 궁금하다.
내가 올바른 길을 가고 있다고 생각하십니까? 아니면 그냥 바보의 심부름인가요? 링크 된 코드에 눈부신 결함이 있습니까? 누구든지 Wikipedia 기사를 요약하는 문제에 접근하는 더 좋은 방법을 알고 있습니까? 나는 오랫동안 함께 할 수있는 완벽한 무언가보다 더 빠르고 더러운 해결책을 갖고 싶습니다. 모든 일반적인 조언도 환영 할 것입니다.
다음으로 신문 기사를 사용하여 스캔 한 기사를 더 짧게 만들 것을 원할 것입니다. – tylerthemiler
분명히 너무 오래되었습니다. 16 세까지 이런 일을 남겨주세요. http://www.wired.com/gadgetlab/2011/12/summly-app-summarization/ – ColinE
:) 멋지게 보입니다. 나는 내 iPod에서 실행할 수 없지만 리뷰를 읽을 수 있습니다. 그들은 꽤 섞여 있었다. 나는 그것이 잘 작동하지 않는다는 인상을 받았습니다. –