Windows에서 MySQL과 Apache Nutch 통합

Apache Nutch 2.1을 Windows 8 플랫폼의 Mysql 서버와 통합하려고합니다. 나는 튜토리얼 http://nlp.solutions.asia/?p=180을 따라 가고있다. 나는 apache-nutch-2.1을 다음과 같이 수정했다.Windows에서 MySQL과 Apache Nutch 통합

나는 apache-nutch-2.1-src.zip을 다운로드하고 압축을 풉니 다. 아이비

다음 주석/ivy.xml

<dependency org="mysql" name="mysql-connector-java" rev="5.1.18" conf="*->default"/>

을위한 SQL 특성과 주석의 MySQL CONT/gora.properties위한 고라 특성을 추가했다.

gora.sqlstore.jdbc.driver=com.mysql.jdbc.Driver 
gora.sqlstore.jdbc.url=jdbc:mysql://localhost:3306/nutch? 
           createDatabaseIfNotExist=true 
gora.sqlstore.jdbc.user=root 
gora.sqlstore.jdbc.password=root

추가 속성은 nutch-site.xml 파일을/명령 프롬프트에서
실행 개미 실행 명령 conf의합니다. 그것은/runtime 디렉토리를 만들었습니다.
/runtime/local/urls 디렉토리에 seeds.txt 파일을 www.apache.nutch.org 값과 함께 추가했습니다.
추가됨^http : // ([a-z0-9] *.) * nutch.org /는/runtime/local/conf 디렉토리 내의 domain-urlfilter.txt 및 regex-urlfilter.txt 파일 모두에 추가됩니다.

I가 발생 Cygwin에서의 terminal..following 예외 통해 크롤링 시작을위한 명령을 실행하고,

나는 괜찮아 하둡과 Windows가 작동하지 않습니다 인터넷을 통해 검색 한

Exception in thread "main" java.io.IOException: Failed to set permissions of path: \tmp\hadoop-Abhijeet\mapred\staging\Abhijeet530509219\.staging to 0700 
    at org.apache.hadoop.fs.FileUtil.checkReturnValue(FileUtil.java:689) 
    at org.apache.hadoop.fs.FileUtil.setPermission(FileUtil.java:662) 
    at org.apache.hadoop.fs.RawLocalFileSystem.setPermission(RawLocalFileSystem.java:509) 
    at org.apache.hadoop.fs.RawLocalFileSystem.mkdirs(RawLocalFileSystem.java:344) 
    at org.apache.hadoop.fs.FilterFileSystem.mkdirs(FilterFileSystem.java:189) 
    at org.apache.hadoop.mapreduce.JobSubmissionFiles.getStagingDir(JobSubmissionFiles.java:116) 
    at org.apache.hadoop.mapred.JobClient$2.run(JobClient.java:856) 
    at org.apache.hadoop.mapred.JobClient$2.run(JobClient.java:850) 
    at java.security.AccessController.doPrivileged(Native Method) 
    at javax.security.auth.Subject.doAs(Subject.java:396) 
    at org.apache.hadoop.security.UserGroupInformation.doAs(UserGroupInformation.java:1121) 
    at org.apache.hadoop.mapred.JobClient.submitJobInternal(JobClient.java:850) 
    at org.apache.hadoop.mapreduce.Job.submit(Job.java:500) 
    at org.apache.hadoop.mapreduce.Job.waitForCompletion(Job.java:530) 
    at org.apache.nutch.util.NutchJob.waitForCompletion(NutchJob.java:50) 
    at org.apache.nutch.crawl.InjectorJob.run(InjectorJob.java:219) 
    at org.apache.nutch.crawl.Crawler.runTool(Crawler.java:68) 
    at org.apache.nutch.crawl.Crawler.run(Crawler.java:136) 
    at org.apache.nutch.crawl.Crawler.run(Crawler.java:250) 
    at org.apache.hadoop.util.ToolRunner.run(ToolRunner.java:65) 
    at org.apache.nutch.crawl.Crawler.main(Crawler.java:257)

나는이 나의 Hadoop을 사용하여 데이터를 저장합니다. 나는 MySQL을 사용하고있다.

아무도 제안 할 수 있습니까? 내가 뭘 잘못하고있는 걸까요?

출처

2013-06-15 abhijeet

Hadoop은 데이터 저장소에 관한 것뿐만 아니라 mapreduce로 수행되는 크롤링에 관한 것입니다. 데이터베이스가 아닌 파일 시스템이 필요합니다. –

@ 토마스 ... 괜찮아요 ...하지만 내가 뭘 잘못하고 있니? – abhijeet

창을 사용 중입니다. 이 버그를 수정 한 Hadoop 버전으로 전환하거나 버그를 수정하거나 Linux를 사용하기 위해 Hadoop을 다시 컴파일해야합니다. –

저는 Windows와 Linux 모두에서 Nutch2를 사용하고 있습니다. Windows에서 실행하기 위해서는 Haddop 1.0.3 패치가 설치되어 있어야합니다 : https://github.com/congainc/patch-hadoop_7682-1.0.x-win.

출처

2013-06-28 11:47:46 robert

Windows에서 MySQL과 Apache Nutch 통합

답변

관련 문제