2010-04-14 3 views
6

나는 wget을 사용하여 site을 다운로드하고 싶습니다. 파일의 소스 코드와 내용을 보면 SUMMARY라는 섹션이 있습니다. 그러나이 같은 wget과 명령을 실행 한 후 :'wget'을 사용하여 자바 스크립트로 HTML 전체 내용을 다운로드하는 방법

wget -O downdloadedtext.txt http://www.ncbi.nlm.nih.gov/IEB/Research/Acembly/av.cgi?db=mouse&c=gene&a=fiche&l=2610008E11Rik 

downdloadedtext.txt의 내용은 소스 코드를 해당 사이트의 와 불완전하고 다릅니다. 예를 들어, SUMMARY 섹션은 포함되어 있지 않습니다. 전체 내용을 올바르게 얻는 올바른 방법이 있습니까?

이유는 내가 그 HTML에서 다른 값에서 다운로드를 자동화하고 싶기 때문에 이것을 묻습니다.

+0

이해가 안됩니다. 소스 코드에는 어떤 차이점이 있습니까? 그리고 Javascript는 무엇을해야합니까? –

+0

@Pekka : 자바 스크립트가 들어있는 본문이 다운로드되지 않습니다. 시도해보십시오. – neversaint

+0

Windows 컴퓨터에서 wget을 사용할 수 없습니다. 실제 * 본문이 다른지 또는 다운로드되지 않는 js 파일입니까? –

답변

11

당신은 따옴표 안에 링크를 둘 필요가 다음 &은 특별한 의미를 가지고 있으며, 여러 명령에 명령을 분할하기 때문에

wget -O downdloadedtext.txt 'http://www.ncbi.nlm.nih.gov/IEB/Research/Acembly/av.cgi?db=mouse&c=gene&a=fiche&l=2610008E11Rik' 

이입니다.

3

& 문자는 쉘에서 특별한 의미가 있습니다. 요청할 URI를 실제로 요청할 수 있도록 URI를 인용하십시오.

+0

@DD : 견적하는 방법? 나는 "\ & l = 2610008E11Rik"을 시도했지만 여전히 실패했습니다. – neversaint

+0

'&'대신'&'을 시도하십시오. –

+0

@ Pekka : 고마워. 그래도 효과는 없다. – neversaint

2

(--page-prerequisites) 플래그를 사용하여 wget에 연결된 리소스를 검색 할 수 있습니다. man wget :

이 옵션을 사용하면 Wget이 주어진 HTML 페이지를 올바르게 표시하는 데 필요한 모든 파일을 다운로드하게됩니다. 여기에는 인라인 이미지, 사운드 및 참조 된 스타일 시트 등이 포함됩니다.

당신은 또한 당신이 과정 것을 제한 할 수있는 --follow-tags 옵션을 볼 수 있습니다

를 Wget은 재귀 중에 링크 된 문서를 찾을 때 그것을 간주하는 HTML 태그/속성 쌍의 내부 테이블이 있습니다 검색. 그러나 사용자가 이러한 태그의 하위 집합 만 고려하기를 원할 경우이 옵션을 사용하여 쉼표로 구분 된 목록에 태그를 지정해야합니다.

+0

@ TJC : 그렇게하지 않을 것이다. 링크 된 소스의 컨텐츠를 얻고 싶지 않습니다. 나는 바로 그 사이트의 완전한 내용을 얻고 싶다. – neversaint

+0

@neversaint 나는 "사이트"가 아니라 "페이지"를 의미한다고 생각한다. –

관련 문제