Apache Nutch 2.1을 Windows 8 플랫폼의 Mysql 서버와 통합하려고합니다. 나는 튜토리얼 http://nlp.solutions.asia/?p=180을 따라 가고있다. 나는 apache-nutch-2.1을 다음과 같이 수정했다.Windows에서 MySQL과 Apache Nutch 통합
- 나는 apache-nutch-2.1-src.zip을 다운로드하고 압축을 풉니 다. 아이비
다음 주석/ivy.xml
<dependency org="mysql" name="mysql-connector-java" rev="5.1.18" conf="*->default"/>
을위한 SQL 특성과 주석의 MySQL CONT/gora.properties위한 고라 특성을 추가했다.
gora.sqlstore.jdbc.driver=com.mysql.jdbc.Driver gora.sqlstore.jdbc.url=jdbc:mysql://localhost:3306/nutch? createDatabaseIfNotExist=true gora.sqlstore.jdbc.user=root gora.sqlstore.jdbc.password=root
- 추가 속성은 nutch-site.xml 파일을/명령 프롬프트에서
- 실행 개미 실행 명령 conf의합니다. 그것은/runtime 디렉토리를 만들었습니다.
- /runtime/local/urls 디렉토리에 seeds.txt 파일을 www.apache.nutch.org 값과 함께 추가했습니다.
- 추가됨^http : // ([a-z0-9] *.) * nutch.org /는/runtime/local/conf 디렉토리 내의 domain-urlfilter.txt 및 regex-urlfilter.txt 파일 모두에 추가됩니다.
I가 발생 Cygwin에서의 terminal..following 예외 통해 크롤링 시작을위한 명령을 실행하고,
나는 괜찮아 하둡과 Windows가 작동하지 않습니다 인터넷을 통해 검색 한Exception in thread "main" java.io.IOException: Failed to set permissions of path: \tmp\hadoop-Abhijeet\mapred\staging\Abhijeet530509219\.staging to 0700
at org.apache.hadoop.fs.FileUtil.checkReturnValue(FileUtil.java:689)
at org.apache.hadoop.fs.FileUtil.setPermission(FileUtil.java:662)
at org.apache.hadoop.fs.RawLocalFileSystem.setPermission(RawLocalFileSystem.java:509)
at org.apache.hadoop.fs.RawLocalFileSystem.mkdirs(RawLocalFileSystem.java:344)
at org.apache.hadoop.fs.FilterFileSystem.mkdirs(FilterFileSystem.java:189)
at org.apache.hadoop.mapreduce.JobSubmissionFiles.getStagingDir(JobSubmissionFiles.java:116)
at org.apache.hadoop.mapred.JobClient$2.run(JobClient.java:856)
at org.apache.hadoop.mapred.JobClient$2.run(JobClient.java:850)
at java.security.AccessController.doPrivileged(Native Method)
at javax.security.auth.Subject.doAs(Subject.java:396)
at org.apache.hadoop.security.UserGroupInformation.doAs(UserGroupInformation.java:1121)
at org.apache.hadoop.mapred.JobClient.submitJobInternal(JobClient.java:850)
at org.apache.hadoop.mapreduce.Job.submit(Job.java:500)
at org.apache.hadoop.mapreduce.Job.waitForCompletion(Job.java:530)
at org.apache.nutch.util.NutchJob.waitForCompletion(NutchJob.java:50)
at org.apache.nutch.crawl.InjectorJob.run(InjectorJob.java:219)
at org.apache.nutch.crawl.Crawler.runTool(Crawler.java:68)
at org.apache.nutch.crawl.Crawler.run(Crawler.java:136)
at org.apache.nutch.crawl.Crawler.run(Crawler.java:250)
at org.apache.hadoop.util.ToolRunner.run(ToolRunner.java:65)
at org.apache.nutch.crawl.Crawler.main(Crawler.java:257)
나는이 나의 Hadoop을 사용하여 데이터를 저장합니다. 나는 MySQL을 사용하고있다.
아무도 제안 할 수 있습니까? 내가 뭘 잘못하고있는 걸까요?
Hadoop은 데이터 저장소에 관한 것뿐만 아니라 mapreduce로 수행되는 크롤링에 관한 것입니다. 데이터베이스가 아닌 파일 시스템이 필요합니다. –
@ 토마스 ... 괜찮아요 ...하지만 내가 뭘 잘못하고 있니? – abhijeet
창을 사용 중입니다. 이 버그를 수정 한 Hadoop 버전으로 전환하거나 버그를 수정하거나 Linux를 사용하기 위해 Hadoop을 다시 컴파일해야합니다. –