2013-03-27 3 views
0

crawler4j를 사용하여 웹 사이트를 크롤링하려고합니다. crawler4j 웹 사이트의 지침을 따를 수있었습니다. 완료되면 두 개의 .lck 파일, 하나의 .jdb 파일 및 하나의 .info.0 파일이있는 폴더가 생성됩니다..lck 파일이란 무엇이며 왜 버퍼링 된 판독기로 읽을 수 없습니까?

this에 제공된 코드를 사용하여 파일을 읽으려고했지만 파일을 읽는 데 실패하지만 계속 실패합니다. 이전에 텍스트 파일을 읽는 데 동일한 함수를 사용 했으므로 코드가 작동한다는 것을 알고 있습니다.

나 또한 found 몇 달 전에 같은 질문을 한 다른 사람. 그들은 결코 대답을 얻지 못했습니다.

내 코드를 사용하여 이러한 .lck 파일을 열고 메모리로 읽을 수없는 이유는 무엇입니까?

+0

"계속 실패"는 절망적으로 모호합니다. 무슨 일이야? –

답변

1

Crawler4j는 BerkeleyDB을 사용하여 크롤링 정보를 저장합니다. 근원에서 여기에서보십시오.

명령 줄에서 DB 유틸리티를 사용하여 데이터에 액세스 할 수 있습니다. SO here에 이미 설명되어 있습니다.

Java 코드의 데이터에 액세스하려면 BerkeleyDB 라이브러리 (Maven 명령어)를 가져 와서 tutorial on how to open the DB을 따르십시오.

+0

고마워, 나는 그 파일들로 무엇을해야 하는지를 찾고있는 crawler4j 사이트를보고 있었지만 나는 아무것도 발견하지 못했다. –

관련 문제