cascading

0열

1답변

두 번째 튜플 스트림의 RegexParser에서 정규식의 일부로 하나의 튜플 스트림의 필드 사용

hdfs에서 csv를 읽고 계단식으로 구문 분석 한 다음 결과 튜플 스트림을 사용하여 정규 표현식의 기초를 형성합니다. RegexParser를 사용하는 다른 튜플 스트림. 내가 할 수있는 한,이 작업을 수행하는 유일한 방법은 내 자신의 맞춤 함수를 작성하는 것이고, Java API를 대신 사용하는 방법을 알고 있는지 궁금해하고 있습니다. 계단식 프레임 워크

0열

1답변

캐스 케이 딩은 파일에 나쁜 기록을 필터링 나는 내가 두 가지 기능을 작성했습니다</p> <p>필요한 파이프에 마지막에서 레코드를 필터링 할에 따라 내가 지표를 설정하고 캐스 케이 딩에서 DQ 검사에 사용자 정의 기능을 사용하고

그것을 위해. 아래 코드에서 Field 'A'는 Null 검사가 필요한 문자열이고 'B'필드는 Decimal Check를 수행해야하는 코드입니다. 표시기 'Ind'는 품질 검사 결과에 따라 설정되며 IndicatorNull/IndicatorDecimal 함수로 전달되고 설정됩니다. 하지만이 코드에서 오류가 있습니다. 나는 'A'/ 'Ind'필드와 'B'/

0열

1답변

계단식 멤버 함수 호출의 경우 참조를 반환해야하는 이유는 무엇입니까? 이 포인터만으로 충분하지 않은 이유는 무엇입니까?

#include <iostream> using namespace std; class armon { int a; int b; public: armon(int newA, int newB) : a(newA), b(newB) {} armon setA(int newA) { a = newA; ret

1열

1답변

GROUPBY toList 요소 순서

나는 여러 필드와 RichPipe이, 이제 가정 해 봅시다. 그런 다음 각 그룹의 목록에서 scanLeft 작업을 수행하고 '섹스 및 결과'가 포함 된 파이프를 가져 오려고합니다. 나는 현재 이것을 수행하여 pipe.groupBy('sex) {_.toList('weight -> 'weights).toList('age - 'ages)} 을 수행 한 다음

0열

1답변

커스텀 ding핑 탭 (또는 Spark와 동등한 것)

HBase의 Hadoop 클러스터에있는 일부 데이터를 사용자 정의 파일 형식으로 덤프하려고합니다. 내가하고 싶은 무엇 는 더 많거나 적은 다음과 같은 몇 가지 계산 기능에 의한 끓는 파이프 또는 유사한 그룹 항목으로 기록의 분산 목록에서 시작 동일한 그룹에 속한 항목이 각 그룹에 동일한 서버에 상주하도록 정렬하고, 정렬을 포함하는 변환을 적용하고 결과를 디

0열

1답변

먼저 데이터를 계단식 드롭 다운 목록

을 작성하여 데이터베이스에 삽입하지 않습니다. [Http post] 메소드를 작성하면 모든 데이터가 계단식 드롭 다운 항목을 제외하고 삽입됩니다. 나는 부서, 주제 및 섹션 모델을 가지고 있습니다. 한 부서에는 많은 주제가있을 수 있으며 한 주제에는 여러 섹션이있을 수 있습니다. jquery 제출 부분을 추가 한 후 양식이 제출 될 수 없음을 보여줍니다!

1열

1답변

작업이 맵퍼 또는 리듀서없이 실행됩니다.

로컬 모드에서 크게 실행되는 스케이팅을 사용하여 작업을 작성했습니다. 그러나 hdfs 모드 (동일한 파일에 있음)로 실행하려고하면 아무 것도하지 않습니다. 보다 정확하게는 첫 번째 단계에는 작업이 없습니다 (매퍼 또는 감속기). 이후 단계에서는 분명히 아무 것도하지 않습니다. 예외에 대한 로그를 grepping 해본 후 try-catch에 내 코드를 래핑

0열

1답변

AWS-EMR의 ETL 자동 하이브 또는 케스케이드

AWS S3에있는 대규모 데이터 세트가 있습니다. 이 데이터는 일반적으로 거래 데이터 (예 : 레코드 호출)입니다. 일련의 하이브 쿼리를 연속적으로 실행하여 집계를 실행하고 condtions을 필터링하여 최종 컴팩트 파일 (수백 개의 행이 최대 인 csv)을 생성합니다. 지금까지 Hive를 사용하여 수동으로 다른 쿼리를 실행해야했습니다 (AWS 등의 일부

0열

1답변

참을성없는 TFIDF 예제 동결을 위해 계단식 연결

계단식 작업을 통해 로컬 Hadoop 클러스터에서 복잡한 데이터 처리 워크 플로를 만들고 실행하려고합니다. TFIDF 벡터를 생성하여 Apache Spark 프레임 워크를 사용하여 NaiveBayes와 같은 기계 학습 알고리즘을 적용 할 수 있습니다. 문제는 jar 파일을 만든 후 다음 명령을 사용하여 실행하면 문제가 발생한다는 것입니다. Here이 로그

0열

1답변

계단식으로 구동되는 자체 호스트 버전 서버 오류

Cloudera-5 (CDH-5) VM에서 Driven Self-Hosted 버전을 사용하고 있습니다. Driven 서버를 성공적으로 설치하고 URL localhost.localdomain : 8080에서 서버를 열 수있었습니다. 내가 파일에 아래의 값을 제공 한 는 cascading.management.document.service.apikey=API_K