2012-06-27 2 views
0

나는 순수한 텍스트 인 거대한 (약 20mB) html 페이지가 있습니다. 서버에서 실행중인 일부 코드의 로그 파일입니다. 자, 누군가가 그것을 열 때 특정 페이지에서 필자의 필요에 따라 적절한 링크를 추가 할 때이 페이지를 자동으로 분석하는 크롬 플러그인을 작성하려고합니다.자바 스크립트를 사용하여 대형 HTML 텍스트 페이지를 처리하는 방법은 무엇입니까?

페이지 그래서 처음에 둘째 따라 두 가지 질문이, 나에게 도움이되는이

<html><head></head><body><pre> 20mB of pure text </pre></body></html> 

것 같습니다. (지금까지 순수한 자바 스크립트를 사용하고 있습니다. 라이브러리가 없습니다.)

1) 페이지를 구문 분석하려면 어떻게해야합니까? 2) 처음 3-4 줄에는 몇 가지 정보가 있습니다. 어떻게 쉽게 처음 몇 줄을 얻고 그것에서 데이터를 얻으십시오 (전체 페이지를 분석하는 것이 쉽지 않을 경우)?

+1

페이지를 구문 분석하는 방법은 데이터 구성 방법에 따라 다릅니다. –

+0

XML을 트래버스 할 수있는 자바 스크립트 라이브러리를 찾아야합니다. 그러면 pre 태그에서 텍스트를 쉽게 얻을 수 있습니다. – thatidiotguy

+0

내가 말했듯이, 'pre'태그 안에는 순수 텍스트 20MB가 있습니다. 로그 파일을 덤프합니다. – Devesh

답변

0

페이지를 구문 분석하려는 이유는 무엇입니까? 요약을 작성하고 있습니까? 그 didnt 한 작업 바로 당신이 '\에'\ n을 '을 전환해야하는 경우

var first4Lines = document.getElementById("theIdTagOfThePre").innerHTML.split("\n",4); :

우선, 당신은 사전 태그에 ID를 추가하고이 작업을 수행하여 처음 4 개 라인을 얻을 수 있습니다 r \ n '.

+0

페이지는 기본적으로 로그 파일입니다. 20mb 텍스트의 각 행에 적절한 html 링크를 추가 할 것입니다. – Devesh

관련 문제