html을 구문 분석하고 쉘 스크립트를 사용하여 html의 4 부분을 추출해야합니다. 그러나 나는 껍질이 새롭다. 난 그냥 cat $1
에 대한 루프를 시작하여 HTML의 각 라인을 살펴 봅니다. 아무도 나를 도와 줄 수 없나요?쉘을 사용하여 html 구문 분석 및 데이터 추출
1
A
답변
3
htmlutils
을 사용하거나 간단한 추출을 위해 grep
을 사용할 수 있습니다. 다음 예를 참조하십시오
는 H1의 외부 HTML을 추출 :
$ curl -s http://example.com/ | grep -o '<h1>.*</h1>' <h1>Example Domain</h1>
몸을 추출 : 또한
tr '\n' ' '
을 사용할 수 있습니다$ curl -s http://example.com/ | xargs | grep -o '<body>.*</body>' <body> <div> <h1>Example Domain</h1> ...
대신
xargs
의. 여러 개의 태그에 대한은 다음을 참조하십시오 Text between two tags 유닉스 SE
에서 더 복잡한 구문 분석을 위해, 당신은 jump between matching html tags하거나 편집 할 수있는 당신이 그런 예/VI로 현재 위치에서 편집기를 사용할 수있다 제자리에서 내용.
예 헤더에서 스타일 태그를 제거하고 분석 출력 인쇄 그러므로 적절한 언어를 사용한다 장기적인 접근 방식,
$ curl -s http://example.com/ | ex -s +'/<style.*/norm nvatd' +%p -cq! /dev/stdin
그것은 당신의 HTML을 구문 분석에 대한 정규식을 사용하는 not advised있어 단을 (예 : Python, perl 또는 PHP DOM).
은 참조 :
관련 문제
- 1. soapUI를 사용하여 데이터 추출 및 구문 분석
- 2. html 테이블의 구문 분석 또는 추출
- 3. 문자열을 조각으로 추출 (구문 분석)
- 4. PHP를 사용하여 html 구문 분석
- 5. HTML (구문 분석)
- 6. Python에서 DTMF 구문 분석 (추출)
- 7. HTML 요소 구문 분석
- 8. ruby와 nokogiri를 사용하여 HTML 주석을 마커로 사용하여 HTML 구문 분석
- 9. VB6 : HTML 구문 분석 용 (HTML 구문 분석 용)
- 10. HTML 구문 분석 및 드롭 다운 내리기
- 11. Python HTML 구문 분석 BaseHTTPServer의 POST 데이터
- 12. 구문 분석 HTML PHP는
- 13. libxml2 HTML 구문 분석
- 14. C++ 추출 연산자 오버로드 예제 >> 데이터 구문 분석
- 15. XDocument/XElement를 사용하여 XML 데이터 구문 분석
- 16. AppleScript의 HTML 구문 분석
- 17. HTML 민첩성 구문 분석
- 18. vb.net 및 HTML 구문 분석 현재
- 19. iPhone HTML TouchXML 및 깔끔한 사용하여 구문 분석
- 20. 추출 데이터 웹 페이지
- 21. android html 다운로드 및 구문 분석 오류
- 22. HTML 구문 분석 - Asp.net
- 23. Java HTML 구문 분석
- 24. HTML 구문 분석 오류
- 25. Html 안드로이드에서 구문 분석
- 26. perl에서 HTML 구문 분석
- 27. 파이썬 html 구문 분석
- 28. HTML 구문 분석
- 29. 레일 및 노코 기리로 html 구문 분석
- 30. 배열 데이터 구문 분석
이 얼마나 복잡 HTML을 추출 할입니까? 그것은 단지'
. *
'또는 더 정교합니다 ('# heading' 요소 다음의 12 번째 목록 항목에서 7 번째 단락)입니까? – Boldewyn몇 가지 예제 HTML과 추출하려고하는 것을 보여줄 수 있습니까? –
HTML 구문 분석기를 사용해야하지만, 순수한 쉘로 수행한다면'cat'과'for'가 잘못된 접근법입니다. '-r 행을 읽는 동안; 무언가를하십시오; done