Mudanças entre as edições de "Rotina de Manutenção das TPOL"
(14 revisões intermediárias por 2 usuários não estão sendo mostradas) | |||
Linha 2: | Linha 2: | ||
Os seguintes passos devem ser seguidos para a manutenção de uma TPOL: | Os seguintes passos devem ser seguidos para a manutenção de uma TPOL: | ||
− | :# | + | :#Início |
− | + | :#Identificar a TPOL com problema ainda no Rack; | |
− | :#Identificar a TPOL com problema ainda no Rack | + | :#Conectar o monitor e teclado (ainda no Rack) para eliminar defeitos fáceis, como por exemplo parada no '''fsck''' ou similar. Se esse for o caso, reparar dar um reboot, monitorar a sua volta com o QMON (verificar a queue), lancar o evento no [[Historico_de_Manutencao_das_TPOL | Histórico de Manutenção das TPOL]] e ir para o passo 8. |
− | + | :#Defeito mais complexo: retirar a TPOL do Rack para a bancada e efetuar procedimentos de diagnóstico (análise do hardware, '''fsck''' com boot pode CD live Linux, etc...); | |
− | :#Conectar o monitor e teclado (ainda no Rack) para eliminar defeitos | + | :#'''Deletar a queue da TPOL no QMON para evitar que o SGE tente utilizá-la'''; |
− | como por exemplo parada no '''fsck''' ou similar. Se esse for o caso, reparar dar um | + | :#Consultar o [[Historico_de_Manutencao_das_TPOL | Histórico de Manutenção da TPOL]]. |
− | reboot, monitorar a sua volta com o QMON (verificar a queue), lancar o evento no [[Historico_de_Manutencao_das_TPOL | Histórico de | + | :#No caso de defeito de hardware (exceto HD) ou '''fsck''' externo, após o reparo testar TPOL ainda na bancada com o '''stress''' por no minímo 4 horas, com a finalidade de atestar a estabilidade do hardware com carga.Concluido o teste, retornar com a TPOL para o Rack, monitorar a sua volta com o QMON (verificar a queue), lançar o evento no [[Historico_de_Manutencao_das_TPOL | Histórico de Manutenção das TPOL]] e ir para o passo 9; |
− | + | :#No caso de defeito do HD, proceder com o '''dd''' das imagens de recuperação das TPOL (ver instruções aqui). Após o reparo testar TPOL ainda na bancada com o '''stress''' por no minímo 4 horas, com a finalidade de atestar a estabilidade do hardware com carga. Concluído o teste, retornar com a TPOL para o Rack, '''criar sua queue no QMON a partir da opção de Clone de uma queue boa''', monitorar a sua volta com o QMON (verificar a queue), lançar o evento no [[Historico_de_Manutencao_das_TPOL | Histórico de Manutenção das TPOL]] e ir para o passo 8; | |
− | :#Defeito mais complexo: retirar a TPOL do Rack para a bancada e | ||
− | efetuar procedimentos de | ||
− | etc...) | ||
− | :'''Deletar a queue da TPOL no QMON para evitar que o SGE tente | ||
− | |||
− | :#No caso de defeito de hardware (exceto HD) ou '''fsck''' externo, | ||
− | na bancada com o '''stress''' por no | ||
− | Concluido o teste, retornar com a TPOL para o Rack, monitorar a sua volta com o QMON (verificar a queue), | ||
− | [[Historico_de_Manutencao_das_TPOL | Histórico de | ||
− | |||
− | :#No caso de defeito HD, proceder com o '''dd''' das imagens de | ||
− | |||
− | |||
:#Fim | :#Fim |
Edição atual tal como às 12h50min de 20 de setembro de 2007
Os seguintes passos devem ser seguidos para a manutenção de uma TPOL:
- Início
- Identificar a TPOL com problema ainda no Rack;
- Conectar o monitor e teclado (ainda no Rack) para eliminar defeitos fáceis, como por exemplo parada no fsck ou similar. Se esse for o caso, reparar dar um reboot, monitorar a sua volta com o QMON (verificar a queue), lancar o evento no Histórico de Manutenção das TPOL e ir para o passo 8.
- Defeito mais complexo: retirar a TPOL do Rack para a bancada e efetuar procedimentos de diagnóstico (análise do hardware, fsck com boot pode CD live Linux, etc...);
- Deletar a queue da TPOL no QMON para evitar que o SGE tente utilizá-la;
- Consultar o Histórico de Manutenção da TPOL.
- No caso de defeito de hardware (exceto HD) ou fsck externo, após o reparo testar TPOL ainda na bancada com o stress por no minímo 4 horas, com a finalidade de atestar a estabilidade do hardware com carga.Concluido o teste, retornar com a TPOL para o Rack, monitorar a sua volta com o QMON (verificar a queue), lançar o evento no Histórico de Manutenção das TPOL e ir para o passo 9;
- No caso de defeito do HD, proceder com o dd das imagens de recuperação das TPOL (ver instruções aqui). Após o reparo testar TPOL ainda na bancada com o stress por no minímo 4 horas, com a finalidade de atestar a estabilidade do hardware com carga. Concluído o teste, retornar com a TPOL para o Rack, criar sua queue no QMON a partir da opção de Clone de uma queue boa, monitorar a sua volta com o QMON (verificar a queue), lançar o evento no Histórico de Manutenção das TPOL e ir para o passo 8;
- Fim