bigdata

    0

    1답변

    나는 Apache Flink 튜토리얼을 따라 TaxiRide 이벤트 스트림을 정리합니다. 결과 스트림이 콘솔에 인쇄됩니다. 이제는 csv 파일에 기록하고 싶습니다. 내가 뭔가를 컴파일러 오류로 연결되는 DataSet<Tuple1<TaxiRide>> rides1 = filteredRides.writeAsCsv("/resources").setParallelis

    0

    1답변

    파티션을 변경하는 것처럼 하이브에서 테이블을 변경할 때. 테이블에 어떤 일이 일어나는가. 테이블을 다시 포맷하거나 새로운 파티션을위한 새로운 데이터를 생성합니까?

    1

    3답변

    내가 쿼리 아래 실행하고 노력하고 있습니다 : select a.event_date, date_format(date_trunc('month', a.event_date), '%m/%d/%Y') as date from monthly_test_table a order by 1; 출력 :이 2017-09-15 | 09/01/2017 2017-10-

    -1

    1답변

    저는 각각 200GB의 크기를 포함하는 약 10 개의 파일을받는 한 프로젝트에서 작업하고 있습니다. 내 프로젝트 요구 사항은 각 파일에서 데이터를 추출하고 다른 파일과 결합하여 데이터를 추출하는 것입니다. E.G 나는 계정 ID가있는 파일 1.txt를 가지고 있으며 계정 ID와 계정 이름이있는 파일 2.txt를 가지고 있습니다. 첫 번째 파일의 계정 ID를

    0

    1답변

    데이터 세트가 너무 커서 메모리에 저장할 수 없기 때문에 모델을 일괄 처리해야합니다. 내 모델을 GridSearchCV, RandomizedSearchCV 또는 BayesSearchCV (scikit-optimize)에서 래핑했습니다. 그리고 거대한 데이터 세트의 다른 부분에서 이들의 여러 인스턴스를 학습 할 수 없으며 각자 찾은 최상의 하이퍼 매개 변수가

    -1

    2답변

    아주 작은 파일이 수백만 개가 들어있는 응용 프로그램을 다루고 있습니다. 전송하기가 매우 어렵습니다. 그래서 큰 파일을 만들 수있는 bigfiles 또는 다른 가상 파일 시스템을 생각하고 색인 된 모든 데이터를 포함하고있었습니다. 골란에서 어떻게 이런 일이 일어날까요? 추천 할만한 책자가 있습니까?

    0

    1답변

    나는 스파크 스트리밍 작업을 실행 중이며 스트리밍 입력은 3 시간마다 약 50MB입니다. 이 작업은 처음 몇 시간 동안 몇 개의 파일을 처리했습니다. 그러나 다음 오류로 갑자기 실패했습니다. 오류가 발생하면 입력을받지 못했습니다. 스파크 작업이 새 스레드를 만들 수 없습니다. 비즈니스 로직에서 RDD를 캐시했습니다.하지만 모든 새 입력 파일에 대해 새 스레

    0

    2답변

    저는 5GB가 넘는 매우 큰 파일을 분석하기 위해 독립형 모드로 스파크를 내 시스템에 설치하고 있습니다. 먼저 FTP에서이 파일을 내 로컬 e.g c:\spark\analysis\bigfile.txt에 복사해야합니다. 분석을 위해 스파크로 파일을로드 할 수 있습니다. 제 질문은 어떻게 메모리에서 벗어나지 않고 효율적으로 큰 파일을 복사 할 수 있습니까? 스

    1

    1답변

    이 유형의 질문이 여러 번 요청되었지만 이러한 해결책은 저에게 효과적이지 않습니다. 데이터가지도 전용 작업 출력에서 ​​나온 것이므로 외부 하이브 테이블을 만들었습니다. 그런 다음 특정 파일에 대한 경로가 지정된 명령을로드하여. 그것은 ok를 보였다. 하지만 select * from table 명령을 내리면 null 값을 가진 일부 열을 반환합니다. 내가

    0

    1답변

    Azure의 r HDinsight 서버에 관해서는 32 코어로 구성된 4 개의 노드로 클랜을 구성했습니다. 다음은 구성의 스크린 샷입니다. 하지만 난 R 스튜디오 인터페이스에가 sshuser와 연결하고 나는 그가 나에게 단지 4 개의 코어를 반환 명령 detectCores (all.tests = FALSE, logical = TRUE) 를 사용하는 경우