hdfs에서 csv를 읽고 계단식으로 구문 분석 한 다음 결과 튜플 스트림을 사용하여 정규 표현식의 기초를 형성합니다. RegexParser를 사용하는 다른 튜플 스트림. 내가 할 수있는 한,이 작업을 수행하는 유일한 방법은 내 자신의 맞춤 함수를 작성하는 것이고, Java API를 대신 사용하는 방법을 알고 있는지 궁금해하고 있습니다. 계단식 프레임 워크
그것을 위해. 아래 코드에서 Field 'A'는 Null 검사가 필요한 문자열이고 'B'필드는 Decimal Check를 수행해야하는 코드입니다. 표시기 'Ind'는 품질 검사 결과에 따라 설정되며 IndicatorNull/IndicatorDecimal 함수로 전달되고 설정됩니다. 하지만이 코드에서 오류가 있습니다. 나는 'A'/ 'Ind'필드와 'B'/
#include <iostream>
using namespace std;
class armon {
int a;
int b;
public:
armon(int newA, int newB) : a(newA), b(newB) {}
armon setA(int newA) {
a = newA;
ret
나는 여러 필드와 RichPipe이, 이제 가정 해 봅시다. 그런 다음 각 그룹의 목록에서 scanLeft 작업을 수행하고 '섹스 및 결과'가 포함 된 파이프를 가져 오려고합니다. 나는 현재 이것을 수행하여 pipe.groupBy('sex) {_.toList('weight -> 'weights).toList('age - 'ages)}
을 수행 한 다음
HBase의 Hadoop 클러스터에있는 일부 데이터를 사용자 정의 파일 형식으로 덤프하려고합니다. 내가하고 싶은 무엇 는 더 많거나 적은 다음과 같은 몇 가지 계산 기능에 의한 끓는 파이프 또는 유사한 그룹 항목으로 기록의 분산 목록에서 시작 동일한 그룹에 속한 항목이 각 그룹에 동일한 서버에 상주하도록 정렬하고, 정렬을 포함하는 변환을 적용하고 결과를 디
을 작성하여 데이터베이스에 삽입하지 않습니다. [Http post] 메소드를 작성하면 모든 데이터가 계단식 드롭 다운 항목을 제외하고 삽입됩니다. 나는 부서, 주제 및 섹션 모델을 가지고 있습니다. 한 부서에는 많은 주제가있을 수 있으며 한 주제에는 여러 섹션이있을 수 있습니다. jquery 제출 부분을 추가 한 후 양식이 제출 될 수 없음을 보여줍니다!
로컬 모드에서 크게 실행되는 스케이팅을 사용하여 작업을 작성했습니다. 그러나 hdfs 모드 (동일한 파일에 있음)로 실행하려고하면 아무 것도하지 않습니다. 보다 정확하게는 첫 번째 단계에는 작업이 없습니다 (매퍼 또는 감속기). 이후 단계에서는 분명히 아무 것도하지 않습니다. 예외에 대한 로그를 grepping 해본 후 try-catch에 내 코드를 래핑
AWS S3에있는 대규모 데이터 세트가 있습니다. 이 데이터는 일반적으로 거래 데이터 (예 : 레코드 호출)입니다. 일련의 하이브 쿼리를 연속적으로 실행하여 집계를 실행하고 condtions을 필터링하여 최종 컴팩트 파일 (수백 개의 행이 최대 인 csv)을 생성합니다. 지금까지 Hive를 사용하여 수동으로 다른 쿼리를 실행해야했습니다 (AWS 등의 일부
계단식 작업을 통해 로컬 Hadoop 클러스터에서 복잡한 데이터 처리 워크 플로를 만들고 실행하려고합니다. TFIDF 벡터를 생성하여 Apache Spark 프레임 워크를 사용하여 NaiveBayes와 같은 기계 학습 알고리즘을 적용 할 수 있습니다. 문제는 jar 파일을 만든 후 다음 명령을 사용하여 실행하면 문제가 발생한다는 것입니다. Here이 로그
Cloudera-5 (CDH-5) VM에서 Driven Self-Hosted 버전을 사용하고 있습니다. Driven 서버를 성공적으로 설치하고 URL localhost.localdomain : 8080에서 서버를 열 수있었습니다. 내가 파일에 아래의 값을 제공 한 는 cascading.management.document.service.apikey=API_K