2016-10-21 5 views
0

(3-5 번에게 100-200 쓰기의 무리에서 하루 실패)/"큐 너무 깊이"오류 발생 aerospike 클라이언트Aerospike "장치 과부하"일반 얻기

에서 "장치 과부하"오류는 3 노드 되세요 mapoperations의 중요한 사용과 c3.4x 노드의 클러스터. 쓰기 블록 크기 1MB max-write-cache를 1 일부터 64M에서 256M으로 늘렸지 만 이러한 오류는 거의 발생하지 않습니다. 장치 과부하 오류가 2 노드에서 발생하며 세 번째 오류가 한 번도 발생하지 않습니다 마디.

또한, 문제가 부하가 피크에 있으며 문제가 부하가 낮을 때 동안 발생한 여전히 문제가

또 다른를 발생하지 않은 경우 인스턴스가로로드 관련이있는 것으로 보이는하지 않는 것이 관찰된다 관찰 : 우리는 단일 네임 스페이스를 위해 각 노드에 두 개의 장치를 가지고 있습니다. 성능이 우수한 노드의 경우 쓰기로드가 장치간에 균일하게 분산됩니다. 그러나 다른 노드에서는 동일하지 않습니다. 나는 다음과 같은 로그에서이 판단하고 있습니다 :

노드 10.0.23.95 (장치에 고르지 쓰기를) 2016년 10월 25일 그리니치 표준시 07시 48분 48초 : INFO (drv_ssd) : (drv_ssd.c : 2093) {유저 데이터}/dev에/xvdb : used-bytes 43749001344 free-wblocks 90643 쓰기 -q 0 쓰기 (20749488,16.4) defrag-q 0 조각 모음 읽기 (12761426,11.6) 조각 모음 쓰기 (756967,0.9) Oct 25 2016 07:48 : 488 GMT : INFO (drv_ssd) : (drv_ssd.c : 2093) {userdata}/dev/xvdf : used-bytes 43788740224 자유 wblock 91129 쓰기 -q 0 쓰기 (7088645,8.7) defrag- 읽기 (6659887,7.8) 조각 모음 쓰기 (403406,0.4)

노드 10.0.23.154 (장치에 쓰기조차도)(devv_ssd.c : 2093) {userdata}/dev/xvdf : used-bytes 44678011008 free-wblocks 89862 write-q 0 write (6702031,8.6) (drv_ssd.c : 2093) {userdata}/dev/q/devrag -q 0 defrag-read (6311760,7.9) defrag-write (384025,0.3) Oct 25 2016 07:52:53 GMT : xvdb : 44664046720 무료-wblocks 89790 쓰기-Q 0 쓰기 (6928185,7.4) 조각 모음-q는 0 조각 모음 읽기 (6418616,7.0) 조각 모음 쓰기 (393286,0.3)

답변

1

이 어떤 것을 의미한다 사용 바이트 (SSD)의 일부가 여전히 일부 노드에서로드를 처리 할 수없는 경우가 있습니다. 이것은 다른 근본 원인 수 : 당신의 AWS 인스턴스에

  • 시끄러운 이웃을 (이것에 대한 더 분명한 이유가있을 것입니다, 당신은 EBS를 사용하는 경우가 ... 지역의 SSD를 사용하는 가정).
  • 노드 사이의로드가 생각만큼 분산되지 않을 수 있습니다 (처리량은 같지만 액세스되는 레코드의 크기는 다를 수 있음). 조각 모음이 장치의 일부에 대한 활성화 된 경우
  • 는 조각 모음

내 첫번째 추측 (삭제 어쩌면 고르지 못한 속도, 만료, ...?), 일부 장치의 압력에 추가 할 수있다 , 귀하의 설명에 따라, 시끄러운 이웃 장치의 고르지 않은 성능 것입니다. AWS 인스턴스의 로컬 SSD 성능 (Aerospike의 지원 팀에서 일하고 있음)에서 이와 유사한 부정확성을 분명히 보았습니다. 이러한 스파이크 중에 iostat 세부 정보를 조사하여 SSD 장치의 특정로드 및로드 분산을보다 잘 이해할 수 있습니다.

+1

언급 된 인스턴스가 Aerospike 인증 SSD를 사용하지 않고있을 수 있습니까? – Aaron

+0

우리는 스토리지를 위해 EBS가 아닌 인스턴스 저장소를 사용하고 있습니까?노드는 EC2의 Aerospike ATI에서 만들었습니다 – ArpitW

+0

안녕 Meher 주목할만한 저의 기원 포스트에 좀 더 많은 관찰을 추가했습니다. 그것은 2 노드에 장치의 로그 통계입니다 – ArpitW