2009-06-07 5 views

답변

30

Hadoop에 대한 답변을 추가하려면 Hadoop으로 작업하기에 더 좋은 Scala 래퍼가 2 개 이상 있어야합니다. 스칼라지도 감소

(SMR) : http://scala-blogs.org/2008/09/scalable-language-and-scalable.html

SHadoop : http://jonhnny-weslley.blogspot.com/2008/05/shadoop.html

UPD 10월 5일 11

또한 Scoobi 프레임 워크가 있으며 멋진 표현력을 갖추고 있습니다.

+0

SHadoop은 꽤 오래되었습니다 - 이전 MR 프레임 워크를 사용합니다. 나는 어떤 점에서 implicits를 업데이트했다 : https://github.com/schmmd/Hadoop-Scala-Commons – schmmd

+0

Scalding 또한 옵션이다. https://github.com/twitter/scalding –

3

http://hadoop.apache.org/은 언어에 구애받지 않습니다.

+0

미안하지만 Java 구현을 요구하지 않았습니다. 실제로 Hadoop은 Scala에 플러그인 될 수 있지만 상용구 코드는 Java로 작성되어야합니다. –

+1

모든 상용구를 처리하고 자유/오픈 소스로 게시하는 ScalaHadoopAdapter를 작성 하시겠습니까? – yfeldblum

+7

상용구는 java로 작성할 필요가 없습니다. – jshen

2

scouchdb, CouchDB을 사용하는 스칼라 인터페이스에 관심이 있습니다.

또 다른 아이디어는 GridGain입니다. ScalaDudes에는 스칼라와 함께 GridGain을 사용하는 예제가 있습니다. 다른 예는 here입니다.

2

뒤로, 나는 정확하게이 문제를 만났고 스칼라에서 Hadoop을 쉽게 사용할 수 있도록 약간의 인프라를 작성했다. 나는 혼자서 그것을 한동안 사용했지만 마침내 웹에 올릴 수있었습니다. 이름은 (원래는) ScalaHadoop입니다. 더 jshen의 지점에

1

는 :

하둡 스트리밍은 단순히 소켓을 사용합니다. 유닉스 스트림을 사용하면 코드 (모든 언어)가 stdin에서 읽고 탭으로 구분 된 스트림을 출력 할 수 있어야합니다. 매퍼를 구현하고 필요한 경우 감속기 (필요한 경우 결합기로 구성)

2

hadoop의 최상위에있는 scala API가 Scoobi 인 것을 확인할 때, 아직 개발이 많이 진행되었지만 많은 가능성을 보여줍니다. Scala incubator에있는 hadoop 위에 분산 컬렉션을 구현하려는 노력도 있지만 그 노력은 아직 유용하지 않습니다.

Scalding이라고하는 Twitter에서 계단식 연결을위한 새로운 스칼라 래퍼가 있습니다. Scaling에 대한 문서를 매우 간략하게 살펴본 결과인데 캐스케이드 스무딩과의 통합이 이루어 지지만 계단식 : 유형 안전의 주된 문제로 해결되지 않습니다. 계단식 작업은 계단식 튜플 (기본적으로 별도의 스키마가 있거나없는 필드 값 목록)에서 작동합니다. 즉, 유형 오류, 즉 키를 String 및 Key로 Long으로 결합하면 이 런타임 오류를 발생시킵니다.

+0

Scalding에는 유형 안전 API가 있습니다. https://github.com/twitter/scalding/wiki/Type-safe-api-reference 및 Fields API (언급하고있다), long에 문자열을 합치면 run-time 예외는 발생하지 않는다 (둘 다 숫자 일 경우). 물론, 타입 안전 API에서는 이러한 결합이 컴파일러에 의해 금지됩니다. –

3

개인적으로, 나는 불꽃의 큰 팬이 한

http://spark-project.org/

당신은 크게 당신이 디스크를 많이 맵리 듀스 작업에서 발생하는 것입니다 오버 헤드를 줄이고, 메모리 클러스터 컴퓨팅을 할 수있는 능력을 가지고있다.