OVH Guías

RAID por hardware

Como comprobar el estado del RAID por hardware y de los discos con controladora RAID: LSI, LSI MegaRaid y 3ware (obsoleto).

Requisitos

  • Tener acceso root por SSH.
  • Tener un servidor con RAID por hardware.

Es peligroso manipular los comandos MegaCli y lsiutil si no está seguro de cómo hacerlo, ya que corre el riesgo de perder sus datos. Por ese motivo, es importante hacer un backup antes de realizar cualquier operación.

Controladora RAID MegaRaid

1. Informacion

Antes de comprobar el estado del RAID, verifique que tiene una controladora RAID de tipo MegaRaid.

 lspci | grep -i lsi | grep -i megaraid 03:00.0 RAID bus controller: LSI Logic / Symbios Logic MegaRAID SAS 2108 [Liberator] (rev 05) 

Esto confirma que el servidor efectivamente tiene una controladora RAID MegaRaid.

Utilice el comando MegaCli para mostrar los conjuntos de RAID disponibles:

 MegaCli -LDInfo -Lall -aALL (o bien: storcli /c0 /vall show) Adapter 0 - Virtual Drive Information: Virtual Drive: 0 (Target Id: 0) Name : RAID Level : Primary-1, Secondary-0, RAID Level Qualifier-0 Size : 36.321 GB Sector Size : 512 Mirror Data : 36.321 GB State : Optimal Strip Size : 64 KB Number Of Drives : 2 Span Depth : 1 Default Cache Policy: WriteBack, ReadAdaptive, Cached, Write Cache OK if Bad BBU Current Cache Policy: WriteBack, ReadAdaptive, Cached, Write Cache OK if Bad BBU Default Access Policy: Read/Write Current Access Policy: Read/Write Disk Cache Policy : Disk's Default Encryption Type : None Bad Blocks Exist: No Is VD Cached: No     Virtual Drive: 1 (Target Id: 1) Name : RAID Level : Primary-1, Secondary-0, RAID Level Qualifier-0 Size : 2.727 TB Sector Size : 512 Mirror Data : 2.727 TB State : Optimal Strip Size : 64 KB Number Of Drives : 2 Span Depth : 1 Default Cache Policy: WriteBack, ReadAdaptive, Cached, Write Cache OK if Bad BBU Current Cache Policy: WriteBack, ReadAdaptive, Cached, Write Cache OK if Bad BBU Default Access Policy: Read/Write Current Access Policy: Read/Write Disk Cache Policy : Disk's Default Encryption Type : None Bad Blocks Exist: No Is VD Cached: Yes Cache Cade Type : Read Only   Exit Code: 0x00 

En la respuesta anterior, vemos que tenemos dos discos virtuales, cada uno de los cuales está formado por dos discos físicos. Es decir, que tenemos un total de cuatro discos.

En este caso, el estado del RAID indica que es Optimal, lo que significa que funciona correctamente.

Si el estado del RAID muestra Degraded, le recomendamos que compruebe el estado de los discos duros.

2. Estado de los discos

En primer lugar, es necesario mostrar los Device Id para cada disco duro para poder probarlos bien con la herramienta smartmontools:

 MegaCli -PDList -aAll | egrep 'Slot\ Number|Device\ Id|Inquiry\ Data|Raw|Firmware\ state' | sed 's/Slot/\nSlot/g' (o bien: storcli /c0 /eall /sall show)   Slot Number: 0 Device Id: 4 Raw Size: 279.460 GB [0x22eec130 Sectors] Firmware state: Online, Spun Up Inquiry Data: BTWL3450062J300PGN  INTEL SSDSC2BB300G4                     D2010355   Slot Number: 1 Device Id: 5 Raw Size: 279.460 GB [0x22eec130 Sectors] Firmware state: Online, Spun Up Inquiry Data: BTWL345003X6300PGN  INTEL SSDSC2BB300G4                     D2010355   Slot Number: 2 Device Id: 7 Raw Size: 2.728 TB [0x15d50a3b0 Sectors] Firmware state: Online, Spun Up Inquiry Data:       PN2234P8K2PKDYHGST HUS724030ALA640                    MF8OAA70   Slot Number: 3 Device Id: 6 Raw Size: 2.728 TB [0x15d50a3b0 Sectors] Firmware state: Online, Spun Up Inquiry Data:       PN2234P8JYP59YHGST HUS724030ALA640                    MF8OAA70 

Con el comando smartctl de la herramienta smartmontools, pruebe cada disco duro individualmente como se indica a continuación:

 smartctl -d megaraid,N -a /dev/sdX 

Device ID del disco duro.

Periférico asociado al RAID (/dev/sda = primer RAID; /dev/sdb = segundo RAID; etc.)

En determinados casos, puede obtener el siguiente mensaje:

 /dev/sda [megaraid_disk_00] [SAT]: Device open changed type from 'megaraid' to 'sat' 
En ese caso, deberá sustituir megaraid por sat+megaraid:
 smartctl -d sat+megaraid,N -a /dev/sdX 

Si un disco contiene errores, realice un backup de sus datos y contacte con el soporte de OVH indicando el Enclosure ID, el Slot Number, el Device ID y el número de serie del disco para que podamos identificar el disco defectuoso. Si tiene todos esos datos, usted mismo puede programar la sustitución directamente desde el área de cliente, seleccionando el nombre del servidor y haciendo clic en Sustitución de discos.

3. Resincronizacion

Si se han sustituido uno o más discos, el RAID se resincronizará automáticamente.

Puede utilizar el siguiente comando para ver qué disco duro se está reconstruyendo:

 MegaCli -PDList -aAll | egrep 'Slot\ Number|Device\ Id|Inquiry\ Data|Raw|Firmware\ state' | sed 's/Slot/\nSlot/g' (o bien: storcli /c0 /eall /sall show)   Slot Number: 0 Device Id: 4 Raw Size: 279.460 GB [0x22eec130 Sectors] Firmware state: Online, Spun Up Inquiry Data: BTWL3450062J300PGN  INTEL SSDSC2BB300G4                     D2010355   Slot Number: 1 Device Id: 5 Raw Size: 279.460 GB [0x22eec130 Sectors] Firmware state: Online, Spun Up Inquiry Data: BTWL345003X6300PGN  INTEL SSDSC2BB300G4                     D2010355   Slot Number: 2 Device Id: 7 Raw Size: 2.728 TB [0x15d50a3b0 Sectors] Firmware state: Online, Spun Up Inquiry Data:       PN2234P8K2PKDYHGST HUS724030ALA640                    MF8OAA70   Slot Number: 3 Device Id: 6 Raw Size: 2.728 TB [0x15d50a3b0 Sectors] Firmware state: Rebuild Inquiry Data:       PN2234P8JYP59YHGST HUS724030ALA640                    MF8OAA70 

Para ver el progreso de la reconstrucción de un disco, puede utilizar el siguiente comando:

 MegaCli -PDRbld -ShowProg -PhysDrv [EncID:SlotID] -aALL (o bien: storcli /c0/eEncID/sSlotID show rebuild) 

Enclosure ID

Slot ID

Puede obtener estos valores mostrando la información de los discos duros como se indica más arriba.

4. CacheCade

El CacheCade es un módulo creado por LSI para mejorar el rendimiento de lectura aleatoria de los discos duros utilizando un disco SSD como periférico frontal de caché.

Para comprobar la configuración del CacheCade, puede utilizar el siguiente comando:

 MegaCli -CfgCacheCadeDsply -a0 (o bien: storcli /c0 /dall show cachecade) 

Para comprobar qué RAID está asociado al CacheCade:

 MegaCli -CfgCacheCadeDsply -a0 | grep "Associated LDs" 

Controladora RAID LSI

1. Informacion

Antes de comprobar el estado del RAID, verifique que tiene una controladora RAID de tipo LSI:

 lspci | grep -i lsi | grep -v megaraid 01:00.0 Serial Attached SCSI controller: LSI Logic / Symbios Logic SAS2004 PCI-Express Fusion-MPT SAS-2 [Spitfire] (rev 03) 

Esto confirma que el servidor efectivamente tiene una controladora RAID LSI.

El comando grep -v megaraid sirve para retirar el parámetro MegaRaid del resultado del comando lspci, ya que las tarjetas MegaRaid también son fabricadas por LSI Corporation.

Para obtener la información sobre los RAID disponibles, puede utilizar el comando lsiutil:

Atención, los valores 1,0 y 21 del comando siguiente pueden ser distintos según la versión. Preste mucha atención cuando utilice este tipo de comando.

 lsiutil -p1 -a 1,0 21   LSI Logic MPT Configuration Utility, Version 1.63-OVH (27a4f9f54c)   1 MPT Port found        Port Name         Chip Vendor/Type/Rev    MPT Rev  Firmware Rev  IOC  1.  ioc0              LSI Logic SAS2004 03      200      13000000     0   RAID actions menu, select an option:  [1-99 or e/p/w or 0 to quit] 1     Volume 0 is DevHandle 011e, Bus 1 Target 0, Type RAID1 (Mirroring)   Volume Name:   Volume WWID:  0aaf504551c8efe5   Volume State:  optimal, enabled, background init complete   Volume Settings:  write caching disabled, auto configure hot swap enabled   Volume draws from Hot Spare Pools:  0   Volume Size 1906394 MB, 2 Members   Primary is PhysDisk 1 (DevHandle 0009, Bus 0 Target 0)   Secondary is PhysDisk 0 (DevHandle 000a, Bus 0 Target 1)   RAID actions menu, select an option:  [1-99 or e/p/w or 0 to quit] 0 

Aquí vemos un disco virtual formado por dos discos físicos.

En este caso, el estado del RAID indica que es Optimal, lo que significa que funciona correctamente.

Si el estado del RAID muestra Degraded, le recomendamos que compruebe el estado de los discos duros.

2. Estado de los discos

Para comprobar el estado de los discos a partir de la controladora RAID, puede utilizar el siguiente comando:

 lsiutil -p1 -a 2,0 21   LSI Logic MPT Configuration Utility, Version 1.63-OVH (27a4f9f54c)   1 MPT Port found        Port Name         Chip Vendor/Type/Rev    MPT Rev  Firmware Rev  IOC  1.  ioc0              LSI Logic SAS2004 03      200      13000000     0   RAID actions menu, select an option:  [1-99 or e/p/w or 0 to quit] 2     PhysDisk 0 is DevHandle 000a, Bus 0 Target 1   PhysDisk State:  optimal   PhysDisk Size 1906394 MB, Inquiry Data:  ATA      HGST HUS724020AL AA70   Path 0 is DevHandle 000a, Bus 0 Target 1, online, primary   Path 1 is DevHandle 000a, invalid   PhysDisk 1 is DevHandle 0009, Bus 0 Target 0   PhysDisk State:  optimal   PhysDisk Size 1906394 MB, Inquiry Data:  ATA      HGST HUS724020AL AA70   Path 0 is DevHandle 0009, Bus 0 Target 0, online, primary   Path 1 is DevHandle 0009, invalid   RAID actions menu, select an option:  [1-99 or e/p/w or 0 to quit] 0 

En este caso, los dos discos están en estado Optimal.

Como la controladora LSI utiliza sg-map, debemos probar el periférico /dev/sgX (sustituyendo X por el número del periférico, como /dev/sg1) correspondiente a los discos duros para poder probarlo correctamente con smartmontools.

Puede mostrarlos como se indica a continuación:

 cat /proc/scsi/scsi | grep Vendor   Vendor: LSI      Model: Logical Volume   Rev: 3000   Vendor: ATA      Model: HGST HUS724020AL Rev: AA70   Vendor: ATA      Model: HGST HUS724020AL Rev: AA70 

Cada línea representa un periférico sg, que están montados en el orden en el que se indican, por ejemplo: |---|---|---|---| | Vendor: LSI | Model: Logical Volume | Rev: 3000 | => /dev/sg0 | | Vendor: ATA | Model: HGST HUS724020AL | Rev: AA70 | => /dev/sg1 | | Vendor: ATA | Model: HGST HUS724020AL | Rev: AA70 | => /dev/sg2 | | etc. ||||

Para saber cuál es el periférico correcto con un solo comando, puede utilizar el siguiente:

 cat /proc/scsi/scsi | grep Vendor | nl -v 0 | sed 's/^/\/dev\/sg/' | grep -v LSI | cut -d ' ' -f1,6 | sed 's/sg\ /sg/' | sed 's/\/dev\/sg.\ /\/dev\/sg/' /dev/sg1 /dev/sg2 

Con el comando smartctl de la herramienta smartmontools, pruebe cada disco duro individualmente como se indica a continuación:

 smartctl -a /dev/sgX 

Número del periférico sg mostrado con el comando anterior.

Si un disco contiene errores, realice un backup de sus datos y contacte con el soporte de OVH. Si tiene todos esos datos, usted mismo puede programar la sustitución directamente desde el área de cliente, seleccionando el nombre del servidor y haciendo clic en Sustitución de discos.

3. Resincronizacion

Si se han sustituido uno o más discos, el RAID se resincronizará automáticamente.

Para comprobar si el RAID se está resincronizando y seguir el progreso de la resincronización, puede utilizar el siguiente comando:

Atención, los valores 3,0 y 21 del comando siguiente pueden ser distintos según la versión. Preste mucha atención cuando utilice este tipo de comando.

 lsiutil -p1 -a 3,0 21   LSI Logic MPT Configuration Utility, Version 1.63-OVH (27a4f9f54c)   1 MPT Port found        Port Name         Chip Vendor/Type/Rev    MPT Rev  Firmware Rev  IOC  1.  ioc0              LSI Logic SAS2004 03      200      13000000     0   RAID actions menu, select an option:  [1-99 or e/p/w or 0 to quit] 3   Volume 0 is DevHandle 011e, Bus 1 Target 0, Type RAID1 (Mirroring)   Volume 0 State:  degraded, enabled, resync in progress Resync Progress:  total blocks 624943104, blocks remaining 484024888, 77%   RAID actions menu, select an option:  [1-99 or e/p/w or 0 to quit] 0 

El valor en porcentaje indicado en el resultado del comando no es el porcentaje realizado, sino el porcentaje restante.

Controladora RAID 3ware

Esta controladora RAID está obsoleta y es inestable. Le recomendamos encarecidamente que contacte con el soporte de OVH para planificar una intervención de sustitución de esta controladora RAID por una LSI. Este tipo de intervención requiere la reinstalación del servidor, por lo que deberá haber realizado previamente un backup de sus datos.


Otras guías que podrían interesarle...