2014-02-24 1 views
2

노드가 팻 트리 IB에 연결된 클러스터를 얻습니다. 스위치는 Qlogic 12300입니다.Infiniband 연결 문제

문제는 특정 노드가 서로 이야기 할 수 없다는 것입니다. 심지어 영향을받는 노드와 대화 할 수있는 다른 노드가 있습니다.

ibtracert를 사용하여 문제를 진단했습니다. 놀라운 점은 두 노드와 대화 할 수있는 별도의 노드에서이 명령을 실행하면 문제가 발생하지 않으며 실현 가능한 경로가보고 된 것입니다.

그러나 ibtracert 명령은 영향을받는 두 노드에서 발행 한 경우 오류가 발생합니다.

내가 그럴만한 이유가 무엇인지 물어볼 수 있습니까?

감사합니다.

+0

http://serverfault.com에서 질문을 다시 게시하는 것을 고려하십시오. –

답변

2

두 개의 HCA는 서브넷의 라우팅이 구성되는 방식이므로 서로 통신 할 수 없습니다. 세 번째 컴퓨터에서 "문제가있는"두 컴퓨터로 말할 수 있다는 사실은 이것이 호스트의 문제는 아니지만 서브넷 문제임을 나타냅니다.

Infiniband 라우팅은 복잡한 문제이며 사용자의 설명에 따라 해결 방법을 알 수 없습니다.

일반적으로 Subnet Manager는 모든 스위치에서 라우팅을 계산하고 구성합니다. 어떤 종류의 Subnet Manager를 사용하고 있습니까? 일부 호스트에서 실행되는 OpenSM입니까, 스위치 중 하나에 내장되어 실행되는 Qlogic의 SM입니까?

Qlogic 인 경우 관리 UI로 이동하여 라우팅 알고리즘을 변경/수정해야합니다. OpenSM 인 경우 "minhop"라우팅 (실행을 보려면 "opensm -h"을 실행하십시오)으로 실행하면 문제를 해결할 수 있습니다. 그러나 이것은 실제로 문제를 해결하지 못할 것입니다. 서브넷 토폴로지에 문제가있을 수 있으며, minhop 라우팅이 문제를 해결하면 초점을 맞추어야합니다.

+0

답장을 보내 주셔서 감사합니다. 매우 도움이됩니다. 핵심 스위치 중 하나에 내장 된 Qlogic의 SM입니다. fat-tree 라우팅을 사용하고 있습니다. 코어 스위치와 리프 스위치 중 하나 사이에 "링크 업"상태를 보여주는 두 개의 케이블이 있지만 상태는 활성화되어 있지 않지만 "초기화"상태입니다. 이것은 두 케이블이 나쁘다는 것을 의미합니까? 나쁘다면 왜 링크 업을 보여? – Wei

+0

"상태"와 "상태"가 무엇을 의미하는지 잘 모르겠습니다. 각 포트에는 물리적 및 논리적의 두 가지 유형의 상태가 있습니다. "상태"와 "상태"는 아마도 Qlogic의 어휘 일 것입니다. 나는 당신이 육체적 인 상태를 "위로 연결"하고 논리적으로 "초기화"라고 생각하고 있습니다. 스위치에 연결된 포트에서 볼 수있는 상태라는 사실 때문에 SM이 다운되거나 멈추거나 스위치 중 하나에 문제가 있음을 알 수 있습니다. 케이블은 여기에서 나의 마지막 용의자가 될 것입니다. SM을 확인 (아마 다시 시작)하거나, 문제가있는 코어 스위치 또는 리프 스위치를 재부팅하십시오. – kliteyn

+0

이전에 링크가 고정되어있는 것을보고 ib 스위치의 잘못된 포트를 추적했습니다. 스위치를 통과하는 일의 수가 많아서 테스트 재부팅을 수행 할 수 없었고 포트를 바이 패스했습니다. – MrBooks