웹 사이트의 변경 내용을 추적하고 변경 내용을 이메일로 보내주는 셸 스크립트를 작성하고 있습니다. 아이디어는 wget을 사용하여 html 복사본을 가져 와서 스크립트가 마지막으로 실행 한 버전과 비교하는 것입니다. Wget은 html 파일을 저장하는데 문제가 없지만 파일을 비교하는 데 문제가 있습니다. 문제는 코드, 링크 등이 아닌 html 파일의 일반 텍스트의 변경에만 관심이 있다는 것입니다.html 파일의 Bash diff 본문 텍스트 만
차이점은 두 파일의 모든 변경 사항을 찾기 위해 작동하지만 평이 텍스트가 동일합니다. 이는 사이트의 각 링크가 해당 페이지에 액세스 할 때마다 다른 해당 인증 토큰을 가지기 때문입니다. 일반 텍스트를 포함하는 줄만 비교하기 위해 "<"또는 "(any_amount_of_spaces) <"으로 시작하는 줄을 제외하도록 필터링하려고합니다. diff 매뉴얼 페이지를 살펴 봤지만 필요한 작업을 수행 할 연산자를 찾지 못하는 것 같습니다. 나는 REGEX에 대해 많이 알지 못하지만 diff -I와 함께이 작업을 할 수 있을까?
감사합니다.
예를 확인할 수 있습니다. http://stackoverflow.com/q/2747091/1983854 – fedorqui