2014-10-29 1 views
1

RHEL 시스템의 tty 하위 시스템에 문제가 있습니다. 로그에서 볼 수 있듯이 새로운 콘솔 (pts 또는 tty 일 수 있음)이 생성 될 때마다 일부 커널이 생성됩니다. 내게는 거기에서 발생하는 일종의 경쟁 조건이있는 것 같습니다. 여기에 스택 추적입니다 :커널이 tty 하위 시스템에 매달려 있습니다.

kernel: INFO: task sshd:6338 blocked for more than 120 seconds. 
kernel:  Tainted: P   --------------- 2.6.32-504.el6.x86_64 #1 
kernel: "echo 0 > /proc/sys/kernel/hung_task_timeout_secs" disables this message. 
kernel: sshd   D 0000000000000000  0 6338 6195 0x00000080 
kernel: ffff88035be8d728 0000000000000082 0000000000000000 0000000000000000 
kernel: ffff88035be8d7f8 ffffffff8105ca34 00009488ef033e83 ffff88035be8d708 
kernel: ffff88035be8d880 0000000109b91c98 ffff881eea341098 ffff88035be8dfd8 
kernel: Call Trace: 
kernel: [<ffffffff8105ca34>] ? find_busiest_group+0x244/0x9e0 
kernel: [<ffffffff8152a8c5>] schedule_timeout+0x215/0x2e0 
kernel: [<ffffffff8152a543>] wait_for_common+0x123/0x180 
kernel: [<ffffffff81064b90>] ? default_wake_function+0x0/0x20 
kernel: [<ffffffff8152a65d>] wait_for_completion+0x1d/0x20 
kernel: [<ffffffff81098bf7>] flush_work+0x77/0xc0 
kernel: [<ffffffff81098460>] ? wq_barrier_func+0x0/0x20 
kernel: [<ffffffff81098e14>] flush_delayed_work+0x54/0x70 
kernel: [<ffffffff813392f5>] tty_flush_to_ldisc+0x15/0x20 
kernel: [<ffffffff81333cc7>] n_tty_poll+0x67/0x1d0 
kernel: [<ffffffff8132f80a>] tty_poll+0x8a/0xa0 
kernel: [<ffffffff811a6895>] do_select+0x3c5/0x7c0 
kernel: [<ffffffff8149cf18>] ? ip_finish_output+0x148/0x310 
kernel: [<ffffffff811a59f0>] ? __pollwait+0x0/0xf0 
kernel: [<ffffffff811a5ae0>] ? pollwake+0x0/0x60 
kernel: [<ffffffff811a5ae0>] ? pollwake+0x0/0x60 
kernel: [<ffffffff811a5ae0>] ? pollwake+0x0/0x60 
kernel: [<ffffffff811a5ae0>] ? pollwake+0x0/0x60 
kernel: [<ffffffff8152d04b>] ? _spin_unlock_bh+0x1b/0x20 
kernel: [<ffffffff8144b835>] ? release_sock+0xe5/0x110 
kernel: [<ffffffff814a52cc>] ? tcp_sendmsg+0x73c/0xa20 
kernel: [<ffffffff8144a72b>] ? sock_aio_write+0x19b/0x1c0 
kernel: [<ffffffff8133158d>] ? tty_wakeup+0x3d/0x80 
kernel: [<ffffffff811a6e1a>] core_sys_select+0x18a/0x2c0 
kernel: [<ffffffff8109eb00>] ? autoremove_wake_function+0x0/0x40 
kernel: [<ffffffff811a71a7>] sys_select+0x47/0x110 
kernel: [<ffffffff810e5c87>] ? audit_syscall_entry+0x1d7/0x200 
kernel: [<ffffffff810e5a7e>] ? __audit_syscall_exit+0x25e/0x290 
kernel: [<ffffffff8100b072>] system_call_fastpath+0x16/0x1b 

그래서, 지난 2 함수 호출을보고,이 작업이 schedule_timeout를 통해 약간의 시간() 동안 잠 예정되는 것, 그리고 그 find_busiest_group는 부하의 균형을 시도 후에하는 그 작업에 의해 생성됩니다. 그게 맞습니까? 아니면 제가 여기서 누락 된 것입니까?

감사합니다.

답변

1

누구든지 관심이있는 경우 RedHat에 대한 사례를 열었으며 어레이 컨트롤러 (hpsa)의 HP 펌웨어 버그와 관련된 것으로 보입니다. 자세한 내용은 : https://access.redhat.com/solutions/1179703

는 **> 나는 버그질라를 검토하고 버그가

스마트 어레이 펌웨어 버전에 연결 될 수 있음을 볼 수있다.

컨트롤러 버전과 hpsa 모듈 버전의 조합으로 시스템에 버그가 재현되었습니다. (뉴 hpsa 모듈 버전 및 이전 펌웨어 버전)

  • KMOD - hpsa : 3.4.4-1-RH1
  • SA 펌웨어 : 3.22
  • 컨트롤러 : P220i (103C : 323b의 103C : 3355 01 레브)

새로운 hpsa 모듈 버전과 새로운 펌웨어 버전 을 실행하는 시스템에서이 버그가 재현되지 않았습니다.

  • KMOD-hpsa : 3.4.4-1-RH1
  • SA 펌웨어 : 3.42
  • 컨트롤러 : P220i (103C : 323b의 103C : 3355 01 회전)

오래 실행 시스템 hpsa 모듈 버전 및 이전 펌웨어 버전 도이 버그를 재현하지 못했습니다.

  • KMOD-hpsa : 3.4.0-1-RH1
  • SA 펌웨어 : 3이다.22
  • 컨트롤러 : P220i (103C : 323b 103C : 3355 01 회전) 우리의 경우

제어기 펌웨어 버전이 3.22이고 우리 새로운 hpsa 모듈 버전 3.4.4-1-RH2를 사용 하였다.

$ cat proc/scsi/scsi | 그렙 -A 5 P220i 공급 업체 : HP 모델 : P220i 계 : 3.22 유형 : RAID
ANSI SCSI 개정 : 나는 이전 커널로 우리가 hpsa 모듈 의 이전 버전을 사용하고있는 것을 볼 이제 05

(3.4.0- 1-RH1). 이것으로 시스템은이 버그를 만나지 않아야합니다.

에는 modinfo hpsa 파일 이름 : /lib/modules/2.6.32-431.23.3.el6.x86_64/kernel/drivers/scsi/hpsa.ko

라이센스 : GPL 버전 : 3.4.0-1-RH1 설명 : 드라이버 HP 스마트 어레이 컨트롤러 버전 3.4.0-1-RH1의 작성자 :
휴렛 팩커드 회사 **

이것은 레드햇 엔지니어의 문이었다.

0

스택 추적에서 "sshd"프로세스가 D- 상태가되어 120 초 이상 차단되어 메시지가 syslog에 표시됩니다. 아마도 프로세스가 I/O 또는 차단 된 다른 리소스를 기다리고있을 수 있습니다.

RHEL6을 실행하고 있지만 커널 버전 (2.6.32-504.el6.x86_64)은 상당히 오래된 버전입니다. 먼저 yum upgrade을 사용하여 커널을 업데이트 할 것을 권합니다. 커널을 업데이트 한 후에도 동일한 문제가 발생하면 문제가 재현 될 때 kdump을 구성하고 vmcore를 얻는 것이 좋습니다. 그런 다음 리눅스 내부에 익숙하다면 핵심 도구에 대한 추가 분석을 위해 충돌 도구를 사용하거나 OS 공급 업체에 지원을 문의하십시오.

관련 문제