Автор Тема: Разные ошибки, что всплыли  (Прочитано 5058 раз)

Оффлайн случайность

  • Глобальный модератор
  • Ветеран
  • *****
  • Сообщений: 1061
Разные ошибки, что всплыли
« : 03 марта 2019, 22:32:54 »
Тема об ошибках что были замечены в процессе изучения сервера SF 4800


Буду рассматривать все замеченые ошибки, а так же их способы устранения.

Оффлайн случайность

  • Глобальный модератор
  • Ветеран
  • *****
  • Сообщений: 1061
Re: Разные ошибки, что всплыли
« Ответ #1 : 03 марта 2019, 22:36:02 »
№1.


Первая ошибка была замечена во время прогона команды testboard sb0
Цитировать
{/N0/SB0/P1} ERROR: TEST=Memory Tests,SUBTEST=Memory MATS+ ID=61.3
{/N0/SB0/P1} Component under test: /N0/SB0/P1 Memory
{/N0/SB0/P1}    Correctable error count (2098) exceeds MPR threshold (2097)
{/N0/SB0/P1}    logical bank 0, dimm 0 (J14300)
{/N0/SB0/P1} Failed Memory MATS+

Что то с памятью, указывается на палку памяти под номером J14300

Оффлайн случайность

  • Глобальный модератор
  • Ветеран
  • *****
  • Сообщений: 1061
Re: Разные ошибки, что всплыли
« Ответ #2 : 03 марта 2019, 22:41:11 »
№2. РЕШЕНО, ремонт и замена вентиляторов БП


Вторая ошибка вылезла во время прогона команды testboard sb4, Но она не связана с процессорной платой. Это ошибка перегрева БП PS1.

Цитировать
Mar 03 20:52:28 sc0.YYY.ru Platform.SC: WARNING: PS1 temperature is approaching max limit of 78C
Mar 03 20:52:28 sc0.YYY.ru Platform.SC: PS1 48 VDC 0 Temp. 0 value: 68 Degrees C
Mar 03 20:52:28 sc0.YYY.ru Platform.SC: Check for abnormal environmental operating conditions.
Mar 03 20:52:28 sc0.YYY.ru Platform.SC: PS1, sensor status, outside acceptable limits (7,1,0x605010b00030000)

Дождался окончания прогона теста и выключил сервер командой poweroff all Пока версия в вентиляторах, Потому что при подаче питания на этот БП он шумел вентилятором. Потом затих.

Пока БП не достать из корпуса в виду невозможности вытащить сервер. Нет колес.

следуюшие ошибки посыпались в консоль во время отключения сервера

Цитировать
Mar 03 20:54:56 sc0.YYY.ru Platform.SC: Notice: PS1 48 VDC 0 Temp. 0 device temperature has stabilized.
Mar 03 20:54:56 sc0.mdi.ru Platform.SC: PS1 48 VDC 0 Temp. 0 normal operating temperature: value: 68 Degrees C
Mar 03 20:54:56 sc0.mdi.ru Platform.SC: PS1, sensor status, within acceptable limits (7,2,0x605010b00030000)

Mar 03 20:55:38 sc0.YYY.ru Platform.SC: CAUTION: Physically removing the last power supply will cause the system to lose power.
« Последнее редактирование: 11 октября 2019, 16:21:38 от случайность »

Оффлайн случайность

  • Глобальный модератор
  • Ветеран
  • *****
  • Сообщений: 1061
Re: Разные ошибки, что всплыли
« Ответ #3 : 26 мая 2019, 15:45:59 »
3.

добыл процессорную плату, надежды было мало что живая, так и есть

ошибка

May 26 15:24:42 sc1.YYY.ru Platform.SC: /partition1/domain0/SB0: RepeaterHpu.pre
pare: sun.serengeti.HpuFailedException: SbbcGroup.fillPostStructs: CPU0DCB
/partition1/domain0/SB0: unable to prepare board due to SBBC group failure.
/N0/SB0: poweron may not have completed due to a hardware failure
« Последнее редактирование: 11 октября 2019, 16:20:32 от случайность »

Оффлайн случайность

  • Глобальный модератор
  • Ветеран
  • *****
  • Сообщений: 1061
Re: Разные ошибки, что всплыли
« Ответ #4 : 16 июня 2019, 16:59:50 »
№4 РЕШЕНО, установка новой частоты ЦПУ в сервисном режиме SC


Цитировать
Jun 16 15:28:01 sc1.YYY.ru Platform.SC: /partition1/domain0/SB4/bbcGroup0/cpuAB/
cpusafariagent0: CPU Serial number mismatch:  please update cpu speed property v
ia:
        sepromupdate //SB4 -cpu_speed A <cpu_speed>
Jun 16 15:28:08 sc1.YYY.ru Platform.SC: /partition1/domain0/SB4/bbcGroup0/cpuAB/
cpusafariagent1: CPU Serial number mismatch:  please update cpu speed property v
ia:
        sepromupdate //SB4 -cpu_speed B <cpu_speed>
Jun 16 15:28:09 sc1.YYY.ru Platform.SC: /partition1/domain0/SB4/bbcGroup1/cpuCD/
cpusafariagent0: CPU Serial number mismatch:  please update cpu speed property v
ia:
        sepromupdate //SB4 -cpu_speed C <cpu_speed>
Jun 16 15:28:17 sc1.YYY.ru Platform.SC: /partition1/domain0/SB4/bbcGroup1/cpuCD/
cpusafariagent1: CPU Serial number mismatch:  please update cpu speed property v
ia:
        sepromupdate //SB4 -cpu_speed D <cpu_speed>

Возникла при замене двух процов по 900Мгц на 4 штуки 1050Мгц


решил прогнать команду testboard sb4 В ней тоже всякая кака

Цитировать
sc1.YYY.ru:SC> testboard sb4
Loading the test table from board SB4 PROM 0 ...
Jun 16 15:30:37 sc1.YYY.ru Platform.SC: /partition1/domain0/SB4/bbcGroup0/cpuAB/
cpusafariagent0: CPU Serial number mismatch:  please update cpu speed property v
ia:
        sepromupdate //SB4 -cpu_speed A <cpu_speed>
Jun 16 15:30:38 sc1.YYY.ru Platform.SC: /partition1/domain0/SB4/bbcGroup0/cpuAB/
cpusafariagent1: CPU Serial number mismatch:  please update cpu speed property v
ia:
        sepromupdate //SB4 -cpu_speed B <cpu_speed>
Jun 16 15:30:38 sc1.YYY.ru Platform.SC: /partition1/domain0/SB4/bbcGroup1/cpuCD/
cpusafariagent0: CPU Serial number mismatch:  please update cpu speed property v
ia:
        sepromupdate //SB4 -cpu_speed C <cpu_speed>
Jun 16 15:30:38 sc1.YYY.ru Platform.SC: /partition1/domain0/SB4/bbcGroup1/cpuCD/
cpusafariagent1: CPU Serial number mismatch:  please update cpu speed property v
ia:
        sepromupdate //SB4 -cpu_speed D <cpu_speed>
{/N0/SB4/P2} Running CPU POR and Set Clocks
{/N0/SB4/P3} Running CPU POR and Set Clocks
{/N0/SB4/P2} @(#) lpost         5.20.9  2008/02/26 13:13
{/N0/SB4/P3} @(#) lpost         5.20.9  2008/02/26 13:13
{/N0/SB4/P2} Copyright 2008 Sun Microsystems, Inc.  All rights reserved.
{/N0/SB4/P3} Copyright 2008 Sun Microsystems, Inc.  All rights reserved.
{/N0/SB4/P0} Running CPU POR and Set Clocks
{/N0/SB4/P2} Use is subject to license terms.
{/N0/SB4/P3} Use is subject to license terms.
{/N0/SB4/P1} Running CPU POR and Set Clocks
{/N0/SB4/P0} @(#) lpost         5.20.9  2008/02/26 13:13
{/N0/SB4/P1} @(#) lpost         5.20.9  2008/02/26 13:13
{/N0/SB4/P0} Copyright 2008 Sun Microsystems, Inc.  All rights reserved.
{/N0/SB4/P1} Copyright 2008 Sun Microsystems, Inc.  All rights reserved.
{/N0/SB4/P0} Use is subject to license terms.
{/N0/SB4/P1} Use is subject to license terms.
PostTestSequencer.sequencer: Cpu basic tests
cpuCD: All agents under test failed POST
{/N0/SB4/P2} Subtest: Setting Fireplane Config Registers for aid 0x12
{/N0/SB4/P2} Subtest: Display CPU Version, frequency
{/N0/SB4/P2} Version register = 003e0015.23000507
{/N0/SB4/P2} CPU features = 0000213f.003203ff
{/N0/SB4/P2} Ecache Control Register 00000000.07094400
{/N0/SB4/P2} Cpu/System ratio = 4, cpu actual frequency = 600
{/N0/SB4/P2} @(#) lpost         5.20.9  2008/02/26 13:13
{/N0/SB4/P2} Copyright 2008 Sun Microsystems, Inc.  All rights reserved.
{/N0/SB4/P2} Use is subject to license terms.
{/N0/SB4/P3} Subtest: Setting Fireplane Config Registers for aid 0x13
{/N0/SB4/P3} Subtest: Display CPU Version, frequency
{/N0/SB4/P3} Version register = 003e0015.23000507
{/N0/SB4/P3} CPU features = 0000213f.003203ff
{/N0/SB4/P3} Ecache Control Register 00000000.07094400
{/N0/SB4/P3} Cpu/System ratio = 4, cpu actual frequency = 600
{/N0/SB4/P3} @(#) lpost         5.20.9  2008/02/26 13:13
{/N0/SB4/P3} Copyright 2008 Sun Microsystems, Inc.  All rights reserved.
{/N0/SB4/P3} Use is subject to license terms.
PostTestSequencer.sequencer: Cpu basic tests
cpuAB: All agents under test failed POST
{/N0/SB4/P0} Subtest: Setting Fireplane Config Registers for aid 0x10
{/N0/SB4/P0} Subtest: Display CPU Version, frequency
{/N0/SB4/P0} Version register = 003e0015.23000507
{/N0/SB4/P0} CPU features = 0000213f.003203ff
{/N0/SB4/P0} Ecache Control Register 00000000.07094400
{/N0/SB4/P0} Cpu/System ratio = 4, cpu actual frequency = 600
{/N0/SB4/P0} @(#) lpost         5.20.9  2008/02/26 13:13
{/N0/SB4/P0} Copyright 2008 Sun Microsystems, Inc.  All rights reserved.
{/N0/SB4/P0} Use is subject to license terms.
{/N0/SB4/P1} Subtest: Setting Fireplane Config Registers for aid 0x11
{/N0/SB4/P1} Subtest: Display CPU Version, frequency
{/N0/SB4/P1} Version register = 003e0015.23000507
{/N0/SB4/P1} CPU features = 0000213f.003203ff
{/N0/SB4/P1} Ecache Control Register 00000000.07094400
{/N0/SB4/P1} Cpu/System ratio = 4, cpu actual frequency = 600
{/N0/SB4/P1} @(#) lpost         5.20.9  2008/02/26 13:13
{/N0/SB4/P1} Copyright 2008 Sun Microsystems, Inc.  All rights reserved.
{/N0/SB4/P1} Use is subject to license terms.
{/N0/SB4/P0} Failed
{/N0/SB4/P1} Failed
{/N0/SB4/P2} Failed
{/N0/SB4/P3} Failed

« Последнее редактирование: 11 октября 2019, 16:22:38 от случайность »

Оффлайн случайность

  • Глобальный модератор
  • Ветеран
  • *****
  • Сообщений: 1061
перегрев SB0
« Ответ #5 : 02 октября 2019, 23:18:55 »
Перегрев  платы SB0 РЕШЕНО, сервер очень горячий. и нужно ему хорошее охлаждение в помещении

гонял сервер и вот нарвался на такую бяку

Цитировать
sc1.YYY.ru:SC> Oct 02 22:48:22 sc1.YYY.ru Platform.SC: FULL-COOLING ENGAGED: turning fans high
Oct 02 22:48:22 sc1.YYY.ru Platform.SC: Notice: /N0/SB0 temperature is approaching warning limit of 100C.
Oct 02 22:48:22 sc1.YYY.ru Platform.SC: /N0/SB0 SDC 0 Temp. 0 value: 96 Degrees C
Oct 02 22:48:22 sc1.YYY.ru Platform.SC: FT0, fan speed, High (4,2)
Oct 02 22:48:22 sc1.YYY.ru Platform.SC: FT2, fan speed, High (4,2)
Oct 02 22:48:22 sc1.YYY.ru Platform.SC: FT1, fan speed, High (4,2)

не думал что он так легко перегреется, в комнате температура стала 33 градуса.
« Последнее редактирование: 11 октября 2019, 16:23:37 от случайность »

Оффлайн случайность

  • Глобальный модератор
  • Ветеран
  • *****
  • Сообщений: 1061
Re: Разные ошибки, что всплыли
« Ответ #6 : 23 октября 2019, 15:10:28 »
Устанавливал дополнительную память, появились ошибки (Решено)

Цитировать
/N0/SB0/P0/B0:  WARNING: memory timing parameter mismatch:  D0=Dram Record at 0x
ffff tag = 0xf800230000000000 class F 2.768
    sizeSPDmemorydevice=0d Rows=0d Cols=0a Banks=02 dataWidth=90 RefreshRate=82
BanksDev=04 Density=80 CycleTime=4e tRCtime=4e dimmType=00 D3=Dram Record at 0xf
fff tag = 0xf800230000000000 class F 2.768
    sizeSPDmemorydevice=0d Rows=0d Cols=09 Banks=02 dataWidth=90 RefreshRate=82
BanksDev=04 Density=40 CycleTime=4e tRCtime=4e dimmType=00
 Platform.SC: /N0/SB0/P0/B0:  WARNING: memory timing p
arameter mismatch:  D0=Dram Record at 0xffff tag = 0xf800230000000000 class F 2.
768
    sizeSPDmemorydevice=0d Rows=0d Cols=0a Banks=02 dataWidth=90 RefreshRate=82
BanksDev=04 Density=80 CycleTime=4e tRCtime=4e dimmType=00 D3=Dram Record at 0xf
fff tag = 0xf800230000000000 class F 2.768
    sizeSPDmemorydevice=0d Rows=0d Cols=09 Banks=02 dataWidth=90 RefreshRate=82
BanksDev=04 Density=40 CycleTime=4e tRCtime=4e dimmType=00
 Platform.SC: /N0/SB0/P3/B0:  WARNING: memory timing p
arameter mismatch:  D0=Dram Record at 0xffff tag = 0xf800230000000000 class F 2.
768
    sizeSPDmemorydevice=0d Rows=0d Cols=09 Banks=02 dataWidth=90 RefreshRate=82
BanksDev=04 Density=40 CycleTime=4e tRCtime=4e dimmType=00 D3=Dram Record at 0xf
fff tag = 0xf800230000000000 class F 2.768
    sizeSPDmemorydevice=0d Rows=0d Cols=0a Banks=02 dataWidth=90 RefreshRate=82
BanksDev=04 Density=80 CycleTime=4e tRCtime=4e dimmType=00
/N0/SB0/P3/B0:  WARNING: memory timing parameter mismatch:  D0=Dram Record at 0x
ffff tag = 0xf800230000000000 class F 2.768
    sizeSPDmemorydevice=0d Rows=0d Cols=09 Banks=02 dataWidth=90 RefreshRate=82
BanksDev=04 Density=40 CycleTime=4e tRCtime=4e dimmType=00 D3=Dram Record at 0xf
fff tag = 0xf800230000000000 class F 2.768
    sizeSPDmemorydevice=0d Rows=0d Cols=0a Banks=02 dataWidth=90 RefreshRate=82
BanksDev=04 Density=80 CycleTime=4e tRCtime=4e dimmType=00

Грешил на память, что может битая. Оказалось что ошибся в установке ее по банкам. Получилось что в банке три палки по 1 Гб и одна на 512 Мб. в другом банке три планки по 512 Мб и одна на 1 Гб

Оффлайн случайность

  • Глобальный модератор
  • Ветеран
  • *****
  • Сообщений: 1061
Re: Разные ошибки, что всплыли
« Ответ #7 : 23 октября 2019, 19:44:18 »
 TOD battery is low; replace TOD chip

Сегодня появилась ошибка микросхемы TOD, в ней села батарейка. Я ждал чегото подобного, было предчувствие что это скоро случится,  и вот накаркал
в консоли это выглядит вот так

Цитировать
@(#) SYSTEM CONTROLLER(SC) POST 47 2007/08/03 05:11
PSR = 0x044010e5
PCR = 0x04004000

        ERROR   : TOD BATTERY LOW FLAG SET
        Add: 0x37001ff0
        Exp: 0x00000000
        Obs: 0x00000010

WARNING: TOD battery is low; replace TOD chip
        Memory size = 32MB
.....
.....
TOD(M48T59)              Test
        TOD Init                        Test
        ERROR   : TOD BATTERY LOW FLAG SET
        Add: 0x37001ff0
        Exp: 0x00000000
        Obs: 0x00000010

        FRU: SYSTEM CONTROLLER
        SYSTEM CONTROLLER #0
        ERROR:
        TEST=TOD(M48T59)
        SUBTEST=TOD Init
        ID=22.1
        COMPONENT UNDER TEST: TOD                   U2106


Software Reset...

И так до бесконечности. Надо менять микросхему  TOD. но вот в документации написано что надо вызвать сервисного инженера, и он заменит полностью системный  контроллер. Что же там такого записано в эту ис, что при сдыхании батарейки системный контроллер надо отправлять в ремонт?

Цитировать
Neither the IDPROM card, nor the battery is replaceable.  The System Controller (SC) must be replaced.
On Sun Fire 3800, 4800, 4810, 6800, E4900, and E6900, the part which needs to be replaced is called the SC.
On Sun Fire v1280, E2900 and Netra 1280, and 1290 the part which needs to be replaced is called the IB_SSC.
Customers must contact Support Services by opening a Service Request and mention this knowledge article.  Please have the console log file showing the error messages in question available so as to speed up resolution and dispatch.

A Field Engineer will be dispatched to perform the replacement of this component (it is not a customer serviceable component).

Internal Only Information

Dispatch the replacement of the SC or IB_SSC to the field.  Make sure to utilize the
Canned Action Plan in ATR relating to System Controller Replacement so that
the Field Engineer is provided with the instructions necessary to complete the
service action.


Оффлайн случайность

  • Глобальный модератор
  • Ветеран
  • *****
  • Сообщений: 1061
Re: Разные ошибки, что всплыли
« Ответ #8 : 15 декабря 2023, 17:33:34 »
Проблема c RP2

Появилась ошибка при включении сервера после долгого простоя.

Dec 15 17:22:05 sf4800 Platform.SC: RP2: Could not get i2cSwitchПричем ни один светодиод не загорелся на плате, передергивание тоже не помогло.
Надо разбираться в чем дело.