2011-07-05 7 views
0

실제 API를 사용하여 위키 백과 문서의 콘텐츠를 가져오고 싶습니다. 자, action=renderaction=raw에 대해 잘 알고 있지만 일반 텍스트에서 가능한 대부분의 베어 본 버전을 원합니다. 형식 지정, 링크 없음, 서식 파일 없음, 인용 없음 및 TOC 없음 예를 들면 다음 SO 페이지에서 발췌 한 내용을보실 수 있습니다 :위키 백과의 콘텐츠 가져 오기

<p><b>Stack Overflow</b> is a <a href="http://en.wikipedia.org/wiki/Website" title="Website">website</a>, part of the <a href="http://en.wikipedia.org/wiki/Stack_Exchange_Network" title="Stack Exchange Network">Stack Exchange Network</a>,<sup id="cite_ref-blog_legal_1-0" class="reference"><a href="#cite_note-blog_legal-1"><span>[</span>2<span>]</span></a></sup><sup id="cite_ref-stackapps_legal_2-0" class="reference"><a href="#cite_note-stackapps_legal-2"><span>[</span>3<span>]</span></a></sup> featuring questions and answers on a wide range of topics in <a href="http://en.wikipedia.org/wiki/Computer_programming" title="Computer programming">computer programming</a>.<sup id="cite_ref-secrets_3-0" class="reference"><a href="#cite_note-secrets-3"><span>[</span>4<span>]</span></a></sup><sup id="cite_ref-slashdot_4-0" class="reference"><a href="#cite_note-slashdot-4"><span>[</span>5<span>]</span></a></sup><sup id="cite_ref-google-tech-talks_5-0" class="reference"><a href="#cite_note-google-tech-talks-5"><span>[</span>6<span>]</span></a></sup></p> 

이것은 모든 템플릿과 자료에도 적용됩니다. 나는 이들을 완전히 잘라내어 실제 기사가 시작되는 곳을 찾고 싶습니다.

스택 오버플로는 컴퓨터 프로그래밍의 다양한 주제 에 질문과 답변을 갖춘 웹 사이트, 스택 교환 네트워크의 일부입니다 : 그럼 내가 좋아하는 뭔가 더이 아래로 면도 할 필요가있다.

원시 기사의 콘텐츠를 직접 가져 오려면 템플릿 및 wiki 형식을 어떻게 줄일 수 있습니까? 이것은 PHP로 구현 될 것입니다.

+0

아마 문서에 적혀 있습니다. http://en.wikipedia.org/w/api.php – hakre

+0

@hakre 내가 그것을 놓지 않는 한, 그렇게 보이지 않습니까? – Cyclone

답변

1

wikipediamediawiki api에는 찾고있는 모든 것이 있습니다. 예를 들어 다음은 SO wiki api page입니다.

API를 통해 일반 텍스트를 직접 가져올 수 있다고는 생각하지 않습니다. 당신이 찾고있는 것을 set of parsers에서 선택해야합니다.

희망이 도움이됩니다.

+0

그 중 아무 것도 내가 찾고있는 것을 실제로 보이지 않습니다./ – Cyclone

+0

글쎄, 당신은 항상 상처를 입을 준비가 된 솔루션을 시도하지 않습니다. 어딘가에서 시작해서 거기에서 일해야합니다. – Sukumar

+0

하지만 그 중 아무 것도 API 자체보다 나은 점은 없으며 이는 내 목표에서 상당히 벗어납니다. – Cyclone

관련 문제