색인의 목록이 100 만개까지 올라간 목록 목록이 있습니다. 목록의 각 목록이 텍스트의 문장이라고합시다. 나는 다른 스레드에서 처리를 위해이 데이터를 분할하고 싶습니다. 을 사용하여 데이터를 분할하고 처리를 위해 다른 스레드로 보냈습니다. 이것이 데이터를 분할하는 표준 접근 방식입니까? 그렇지 않다면 제게 몇 가지 표준 승인을 제안 해 주시겠습니까?데이터 세트를 분할하기위한 서브리스트
0
A
답변
2
이는 당신이하지 "structurally modify" 목록 또는 이러한 하위 목록 중 하나를 수행으로 작동합니다. 읽기 전용 처리가 좋습니다.
다른 많은 "빅 데이터는"다른 문제가 있기 때문에 당신이 히트 수, 기록의 수백만의 수백을 처리에 접근이 있습니다
- 를 프로그램 (예 : OutOfMemoryError가)를 실패하면, 당신은 아마하지 않습니다 처음부터 다시 시작하고 싶다.
- 하나의 JVM 메모리에서 데이터를 공유 할 수없는 상황에서 문제가 발생하면 시스템을 1 대 이상 던지기를 원할 수 있습니다.
- 각 문장을 처리 한 후에 중간 결과를 작성한 다음 2 단계로 처리하고 있습니까? 각 단계 전에 데이터를 다시 분할하는 단계의 파이프 라인을 구성해야 할 수도 있습니다.
- 너무 많은 문장을 모두 메모리에 넣을 수 있습니다.
이러한 종류의 작업을위한 가장 일반적인 도구는 Hadoop입니다. 당신은 HDFS에 데이터를 복사 데이터에 대한지도-감소 작업 (또는 하나 이상의 작업을) 실행이 완료되면 다음 HDFS에서 데이터를 복사 할 것입니다. 더 간단한 방법은 구현하기
데이터베이스를 사용하고 할당하는 다른 범위를 다른 스레드의 정수 sentence_id
열의와 다른 테이블에 출력을 구축하는 단지입니다.
관련 문제
- 1. 데이터 세트를
- 2. Vim 서브리스트 조작
- 3. 프롤로그로 서브리스트 열거하기
- 4. 비디오를 분할하기위한 파이썬 라이브러리
- 5. 데이터 세트를 데이터 세트에 추가하십시오.
- 6. 데이터 세트를 마침내 차단 한 다음 데이터 세트를 반환해도 괜찮습니까?
- 7. 데이터 세트를 CSV로 내보내기 완료 데이터 세트를 반환하지 않음
- 8. 데이터 세트를 반복하려고 시도합니다.
- 9. 녹은 데이터 세트를 정리하십시오
- 10. 배열에서 가능한 서브리스트 길이를 계산하십시오.
- 11. 나를 경계 값 (추출 서브리스트)
- 12. xml 파일을 분할하기위한 hadoop 작업
- 13. 개인 이름을 파트로 분할하기위한 알고리즘
- 14. 데이터 세트에서 다중 데이터 세트를 서브 세트하기
- 15. 데이터 세트를 추가하기 전에 데이터 테이블 정렬
- 16. 내가 두 데이터 세트를 다른 데이터 세트
- 17. 데이터 세트를 rdlc 파일에 연결
- 18. Automapper에서 데이터 세트를 사용하려면 어떻게해야합니까?
- 19. SAS 데이터 세트를 읽으려면 어떻게해야합니까?
- 20. 복잡한 데이터 세트를 부트 스트랩
- 21. 공개 데이터 세트를 보는 방법?
- 22. roxygen으로 데이터 세트를 문서화하려면 어떻게해야합니까?
- 23. 변수를 사용하여 데이터 세트를 에코합니다.
- 24. SqlDataAdapter가 데이터 세트를 채우지 않습니다.
- 25. 벡터 세트를 사용하여 새로운 데이터 세트를 만드는 방법은 무엇입니까?
- 26. Quartz에서 작업 세트를 분할하는 방법은 무엇입니까?
- 27. MP3 파일을 복구 또는 분할하기위한 API
- 28. 파이썬에서 두 개의 데이터 세트를 효율적으로 병합
- 29. 리포지토리에서 WEKA로 데이터 세트를 다운로드하는 방법
- 30. Devexpress GridView에 연결된 데이터 세트를 변경 하시겠습니까?
은 내가 목적으로 만 읽어 그 데이터를 사용하고 있습니다. – thetna