Partition qui passe en read only

14 réponses

Auteur	Message
mirage \| Modérateur Inscrit le : 04/05/2005	# Le 03/08/2008 à 12:53 Salut, Sur un serveur de backup (avec une Debian Etch up-to-date avec le système nu et rsync d'installé), j'ai un problème de partition qui passe en read only tous les 2 jours environ, souvent en plein milieu d'un backup. Dans le syslog, j'ai des milliers de lignes de ce type : Aug 3 12:46:05 constellation kernel: sda: Write Protect is off Aug 3 12:46:05 constellation kernel: sda: Mode Sense: 00 3a 00 00 Aug 3 12:46:05 constellation kernel: ata1.00: exception Emask 0x0 SAct 0x0 SErr 0x0 action 0x0 Aug 3 12:46:05 constellation kernel: ata1.00: (BMDMA stat 0x20) Aug 3 12:46:05 constellation kernel: ata1.00: tag 0 cmd 0x25 Emask 0x9 stat 0x51 err 0x40 (media error) Aug 3 12:46:05 constellation kernel: ata1: EH complete Aug 3 12:46:05 constellation kernel: ata1.00: exception Emask 0x0 SAct 0x0 SErr 0x0 action 0x0 Aug 3 12:46:05 constellation kernel: ata1.00: (BMDMA stat 0x20) Aug 3 12:46:05 constellation kernel: ata1.00: tag 0 cmd 0x25 Emask 0x9 stat 0x51 err 0x40 (media error) Aug 3 12:46:05 constellation kernel: ata1: EH complete Aug 3 12:46:05 constellation kernel: ata1.00: exception Emask 0x0 SAct 0x0 SErr 0x0 action 0x0 Aug 3 12:46:05 constellation kernel: ata1.00: (BMDMA stat 0x20) Aug 3 12:46:05 constellation kernel: ata1.00: tag 0 cmd 0x25 Emask 0x9 stat 0x51 err 0x40 (media error) Aug 3 12:46:05 constellation kernel: ata1: EH complete Aug 3 12:46:05 constellation kernel: ata1.00: exception Emask 0x0 SAct 0x0 SErr 0x0 action 0x0 Aug 3 12:46:05 constellation kernel: ata1.00: (BMDMA stat 0x20) Aug 3 12:46:05 constellation kernel: ata1.00: tag 0 cmd 0x25 Emask 0x9 stat 0x51 err 0x40 (media error) Aug 3 12:46:05 constellation kernel: ata1: EH complete Aug 3 12:46:05 constellation kernel: ata1.00: exception Emask 0x0 SAct 0x0 SErr 0x0 action 0x0 Aug 3 12:46:05 constellation kernel: ata1.00: (BMDMA stat 0x20) Aug 3 12:46:05 constellation kernel: ata1.00: tag 0 cmd 0x25 Emask 0x9 stat 0x51 err 0x40 (media error) Aug 3 12:46:05 constellation kernel: ata1: EH complete Aug 3 12:46:05 constellation kernel: ata1.00: exception Emask 0x0 SAct 0x0 SErr 0x0 action 0x0 Aug 3 12:46:05 constellation kernel: ata1.00: (BMDMA stat 0x20) Aug 3 12:46:05 constellation kernel: ata1.00: tag 0 cmd 0x25 Emask 0x9 stat 0x51 err 0x40 (media error) Aug 3 12:46:05 constellation kernel: sd 0:0:0:0: SCSI error: return code = 0x08000002 Aug 3 12:46:05 constellation kernel: sda: Current: sense key: Medium Error Aug 3 12:46:05 constellation kernel: Additional sense: Unrecovered read error - auto reallocate failed Aug 3 12:46:05 constellation kernel: end_request: I/O error, dev sda, sector 432427986 Aug 3 12:46:05 constellation kernel: ata1: EH complete Aug 3 12:46:05 constellation kernel: SCSI device sda: drive cache: write back Aug 3 12:46:05 constellation kernel: SCSI device sda: 488397168 512-byte hdwr sectors (250059 MB) Aug 3 12:46:05 constellation kernel: sda: Write Protect is off Aug 3 12:46:05 constellation kernel: sda: Mode Sense: 00 3a 00 00 Aug 3 12:46:05 constellation kernel: SCSI device sda: drive cache: write back J'ai aussi Smart qui m'envoie des erreurs par mail : Device: /dev/sda, ATA error count increased from 16488 to 17388 Device: /dev/sda, 90 Currently unreadable (pending) sectors Device: /dev/sda, 90 Offline uncorrectable sectors J'ai bien l'impression que le disque va rendre l'âme. J'ai raison ? NB : J'ai lancé un test smartmontools, encore environ 2h avant qu'il soit complet.
Bool \| Olivier Modérateur Inscrit le : 09/05/2005	# Le 03/08/2008 à 13:41 Hello, ça m'en a tout l'air oui. Déja une partition qui passe en readonly, généralement c'est pas bon signe (même si le disque n'a rien, le FS en tous cas a un coup dans l'aile). Pour smartmontools, c'est bien aussi de faire des tests complets régulièrement, et ça fait partie de ses options. Y a des exemples dans le fichier de conf (/etc/smartd.conf) : -s (S/../.././02\|L/../../6/03) start a short self-test every day between 2-3am, and a long self test Saturdays between 3-4am. Vu le peu d'impact sur les perfs, c'est un truc à prévoir en continue. Et sinon un "smartctl -a /dev/sda" donne des chiffres inquiétants dans le zouli tableau ? D'ailleurs pour comprendre un peu ce qu'il raconte : http://en.wikipedia.org/wiki/Self-Monitoring%2C_An... daevel : infogérance et conseil \|\| moi
mirage \| Vincent Modérateur Inscrit le : 04/05/2005	# Le 03/08/2008 à 13:51 Bool a dit : ça m'en a tout l'air oui. Déja une partition qui passe en readonly, généralement c'est pas bon signe (même si le disque n'a rien, le FS en tous cas a un coup dans l'aile). Ouep, on est d'accord. Bool a dit : Pour smartmontools, c'est bien aussi de faire des tests complets régulièrement, et ça fait partie de ses options. Y a des exemples dans le fichier de conf (/etc/smartd.conf) : -s (S/../.././02\|L/../../6/03) start a short self-test every day between 2-3am, and a long self test Saturdays between 3-4am. Vu le peu d'impact sur les perfs, c'est un truc à prévoir en continue. C'est déjà en place et c'est ça qui m'envoie des mails depuis quelques temps... mais c'est voir le système de fichiers en read-only qui m'a attiré l'oeil... Bool a dit : Et sinon un "smartctl -a /dev/sda" donne des chiffres inquiétants dans le zouli tableau ? Faut lui rajouter un "-d ata" pour que ça fonctionne sur les Sata. Les résultats : === START OF INFORMATION SECTION === Device Model: ST3250620AS Serial Number: 3QE0**** Firmware Version: 3.AAD User Capacity: 250 059 350 016 bytes Device is: Not in smartctl database [for details use: -P showall] ATA Version is: 7 ATA Standard is: Exact ATA specification draft version not indicated Local Time is: Sun Aug 3 13:49:18 2008 CEST SMART support is: Available - device has SMART capability. SMART support is: Enabled === START OF READ SMART DATA SECTION === SMART overall-health self-assessment test result: PASSED General SMART Values: Offline data collection status: (0x82) Offline data collection activity was completed without error. Auto Offline Data Collection: Enabled. Self-test execution status: ( 121) The previous self-test completed having the read element of the test failed. Total time to complete Offline data collection: ( 430) seconds. Offline data collection capabilities: (0x5b) SMART execute Offline immediate. Auto Offline data collection on/off support. Suspend Offline collection upon new command. Offline surface scan supported. Self-test supported. No Conveyance Self-test supported. Selective Self-test supported. SMART capabilities: (0x0003) Saves SMART data before entering power-saving mode. Supports SMART auto save timer. Error logging capability: (0x01) Error logging supported. General Purpose Logging supported. Short self-test routine recommended polling time: ( 1) minutes. Extended self-test routine recommended polling time: ( 92) minutes. SMART Attributes Data Structure revision number: 10 Vendor Specific SMART Attributes with Thresholds: ID# ATTRIBUTE_NAME FLAG VALUE WORST THRESH TYPE UPDATED WHEN_FAILED RAW_VALUE 1 Raw_Read_Error_Rate 0x000f 104 100 006 Pre-fail Always - 24948094 3 Spin_Up_Time 0x0003 096 096 000 Pre-fail Always - 0 4 Start_Stop_Count 0x0032 100 100 020 Old_age Always - 29 5 Reallocated_Sector_Ct 0x0033 097 097 036 Pre-fail Always - 135 7 Seek_Error_Rate 0x000f 078 060 030 Pre-fail Always - 79645534 9 Power_On_Hours 0x0032 100 100 000 Old_age Always - 713 10 Spin_Retry_Count 0x0013 100 100 097 Pre-fail Always - 0 12 Power_Cycle_Count 0x0032 100 100 020 Old_age Always - 82 187 Unknown_Attribute 0x0032 001 001 000 Old_age Always - 65535 189 Unknown_Attribute 0x003a 100 100 000 Old_age Always - 0 190 Unknown_Attribute 0x0022 061 060 045 Old_age Always - 73688023079 194 Temperature_Celsius 0x0022 039 040 000 Old_age Always - 39 (Lifetime Min/Max 0/25) 195 Hardware_ECC_Recovered 0x001a 057 048 000 Old_age Always - 221641013 197 Current_Pending_Sector 0x0012 080 001 000 Old_age Always - 409 198 Offline_Uncorrectable 0x0010 080 001 000 Old_age Offline - 409 199 UDMA_CRC_Error_Count 0x003e 200 200 000 Old_age Always - 0 200 Multi_Zone_Error_Rate 0x0000 100 253 000 Old_age Offline - 0 202 TA_Increase_Count 0x0032 100 253 000 Old_age Always - 0 SMART Error Log Version: 1 ATA Error Count: 20582 (device log contains only the most recent five errors) CR = Command Register [HEX] FR = Features Register [HEX] SC = Sector Count Register [HEX] SN = Sector Number Register [HEX] CL = Cylinder Low Register [HEX] CH = Cylinder High Register [HEX] DH = Device/Head Register [HEX] DC = Device Command Register [HEX] ER = Error register [HEX] ST = Status register [HEX] Powered_Up_Time is measured from power on, and printed as DDd+hh:mm:SS.sss where DD=days, hh=hours, mm=minutes, SS=sec, and sss=millisec. It "wraps" after 49.710 days. Error 20582 occurred at disk power-on lifetime: 712 hours (29 days + 16 hours) When the command that caused the error occurred, the device was active or idle. After command completion occurred, registers were: ER ST SC SN CL CH DH -- -- -- -- -- -- -- 40 51 00 d5 53 c6 e0 Error: UNC at LBA = 0x00c653d5 = 12997589 Commands leading to the command that caused the error were: CR FR SC SN CL CH DH DC Powered_Up_Time Command/Feature_Name -- -- -- -- -- -- -- -- ---------------- -------------------- 25 00 08 d2 53 c6 e0 00 06:44:50.284 READ DMA EXT ec 00 00 d5 53 c6 a0 00 06:44:50.283 IDENTIFY DEVICE 25 00 08 d2 53 c6 e0 00 06:44:48.324 READ DMA EXT ec 00 00 d5 53 c6 a0 00 06:44:48.323 IDENTIFY DEVICE 25 00 08 d2 53 c6 e0 00 06:44:46.363 READ DMA EXT Error 20581 occurred at disk power-on lifetime: 712 hours (29 days + 16 hours) When the command that caused the error occurred, the device was active or idle. After command completion occurred, registers were: ER ST SC SN CL CH DH -- -- -- -- -- -- -- 40 51 00 d5 53 c6 e0 Error: UNC at LBA = 0x00c653d5 = 12997589 Commands leading to the command that caused the error were: CR FR SC SN CL CH DH DC Powered_Up_Time Command/Feature_Name -- -- -- -- -- -- -- -- ---------------- -------------------- 25 00 08 d2 53 c6 e0 00 06:44:50.284 READ DMA EXT ec 00 00 d5 53 c6 a0 00 06:44:50.283 IDENTIFY DEVICE 25 00 08 d2 53 c6 e0 00 06:44:48.324 READ DMA EXT ec 00 00 d5 53 c6 a0 00 06:44:48.323 IDENTIFY DEVICE 25 00 08 d2 53 c6 e0 00 06:44:46.363 READ DMA EXT Error 20580 occurred at disk power-on lifetime: 712 hours (29 days + 16 hours) When the command that caused the error occurred, the device was active or idle. After command completion occurred, registers were: ER ST SC SN CL CH DH -- -- -- -- -- -- -- 40 51 00 d5 53 c6 e0 Error: UNC at LBA = 0x00c653d5 = 12997589 Commands leading to the command that caused the error were: CR FR SC SN CL CH DH DC Powered_Up_Time Command/Feature_Name -- -- -- -- -- -- -- -- ---------------- -------------------- 25 00 08 d2 53 c6 e0 00 06:44:50.284 READ DMA EXT ec 00 00 d5 53 c6 a0 00 06:44:50.283 IDENTIFY DEVICE 25 00 08 d2 53 c6 e0 00 06:44:48.324 READ DMA EXT ec 00 00 d5 53 c6 a0 00 06:44:48.323 IDENTIFY DEVICE 25 00 08 d2 53 c6 e0 00 06:44:46.363 READ DMA EXT Error 20579 occurred at disk power-on lifetime: 712 hours (29 days + 16 hours) When the command that caused the error occurred, the device was active or idle. After command completion occurred, registers were: ER ST SC SN CL CH DH -- -- -- -- -- -- -- 40 51 00 d5 53 c6 e0 Error: UNC at LBA = 0x00c653d5 = 12997589 Commands leading to the command that caused the error were: CR FR SC SN CL CH DH DC Powered_Up_Time Command/Feature_Name -- -- -- -- -- -- -- -- ---------------- -------------------- 25 00 08 d2 53 c6 e0 00 06:44:38.454 READ DMA EXT ec 00 00 d5 53 c6 a0 00 06:44:38.453 IDENTIFY DEVICE 25 00 08 d2 53 c6 e0 00 06:44:48.324 READ DMA EXT ec 00 00 d5 53 c6 a0 00 06:44:48.323 IDENTIFY DEVICE 25 00 08 d2 53 c6 e0 00 06:44:46.363 READ DMA EXT Error 20578 occurred at disk power-on lifetime: 712 hours (29 days + 16 hours) When the command that caused the error occurred, the device was active or idle. After command completion occurred, registers were: ER ST SC SN CL CH DH -- -- -- -- -- -- -- 40 51 00 d5 53 c6 e0 Error: UNC at LBA = 0x00c653d5 = 12997589 Commands leading to the command that caused the error were: CR FR SC SN CL CH DH DC Powered_Up_Time Command/Feature_Name -- -- -- -- -- -- -- -- ---------------- -------------------- 25 00 08 d2 53 c6 e0 00 06:44:38.454 READ DMA EXT ec 00 00 d5 53 c6 a0 00 06:44:38.453 IDENTIFY DEVICE 25 00 08 d2 53 c6 e0 00 06:44:36.501 READ DMA EXT ca 00 08 6c 35 1c e1 00 06:44:36.500 WRITE DMA ca 00 08 ba 07 69 e0 00 06:44:46.363 WRITE DMA SMART Self-test log structure revision number 1 Num Test_Description Status Remaining LifeTime(hours) LBA_of_first_error # 1 Extended offline Completed: read failure 90% 713 432427989 # 2 Short offline Completed: read failure 90% 701 430390525 # 3 Extended offline Completed: read failure 90% 700 430390525 # 4 Short offline Completed: read failure 90% 691 430390525 SMART Selective self-test log data structure revision number 1 SPAN MIN_LBA MAX_LBA CURRENT_TEST_STATUS 1 0 0 Not_testing 2 0 0 Not_testing 3 0 0 Not_testing 4 0 0 Not_testing 5 0 0 Not_testing Selective self-test flags (0x0): After scanning selected spans, do NOT read-scan remainder of disk. If Selective self-test is pending on power-up, resume after 0 minute delay. Le disque est encore sous garantie par Seagate (jusqu'en 2011) mais on l'a acheté chez LDLC. Je passe par LDLC ou Seagate ? (LDLC risque d'avoir des délais plus rapides mais je doute qu'ils en veuillent, ça fait plus d'un an qu'on l'a acheté)
Bool \| Olivier Modérateur Inscrit le : 09/05/2005	# Le 03/08/2008 à 15:03 Aucun test "long" ou "court" n'a pu être fait jusqu'au bout : à chaque fois il a échoué dès 10%... et tu as attendu que la partition passe en readonly pour t'inquiéter de la santé d'un disque sur une machine de backup ? Elle est en RAID au moins ? Coté SAV, aucune idée. PS : normalement le "-d ata" n'a pas besoin d'être reprécisé une fois le disque déclaré dans le fichier de conf daevel : infogérance et conseil \|\| moi
mirage \| Vincent Modérateur Inscrit le : 04/05/2005	# Le 03/08/2008 à 15:06 Bool a dit : Aucun test "long" ou "court" n'a pu être fait jusqu'au bout : à chaque fois il a échoué dès 10%... et tu as attendu que la partition passe en readonly pour t'inquiéter de la santé d'un disque sur une machine de backup ? Elle est en RAID au moins ? Mouep, j'ai pas spécialement fait attention et elle n'est pas en RAID non... je ne maîtrise pas suffisamment pour le faire (j'ai rien trouvé de suffisamment clair pour le faire mais si tu as, je prends ). Bon on va voir avec LDLC puis Seagate s'il le faut Merci Bool
caaptusss \| Jérémy Membre Inscrit le : 25/09/2007	# Le 03/08/2008 à 15:18 Chez Maxtor, ça se fait via leur site, tu donne le numéro de série, tu renvoit, et tu reçoit le nouveau disque 2 semaines plus tard. Chez Seagate, ça doit être pareil je pense. FirstHeberg.com
Bool \| Olivier Modérateur Inscrit le : 09/05/2005	# Le 03/08/2008 à 17:24 Mettre en place un raid software est très simple : Tu installes mdadm, sous Debian : aptitude install mdadm Et pour créer la partition raid md6 (en raid 1) sur sda6 + sdb6 : mdadm --create /dev/md6 --level=1 --raid-devices=2 /dev/sda6 /dev/sdb6 Il y a aussi des raccourcis : mdadm --create /dev/md7 --level=5 --raid-devices=4 /dev/sd[abcd]4 Par sécurité, penser à faire un mdadm --detail --scan qui va lister les partitions RAID puis les ajouter dans le fichier de conf /etc/mdadm.conf (il y a une section dédiée à cela). Ce qui donnerait par exemple : # definitions of existing MD arrays ARRAY /dev/md1 level=raid1 num-devices=2 UUID=fc88c62b:fb3d99b9:d7c99dca:37f14355 ARRAY /dev/md6 level=raid0 num-devices=2 UUID=a0a674bd:ab877688:d7c99dca:37f14355 ARRAY /dev/md7 level=raid1 num-devices=2 UUID=ce59350e:5c7033cf:d7c99dca:37f14355 ARRAY /dev/md8 level=raid1 num-devices=2 UUID=0b14c790:40ef9d84:d7c99dca:37f14355 ARRAY /dev/md9 level=raid1 num-devices=2 UUID=774e0444:94615dea:d7c99dca:37f14355 C'est tout pour ce qui est de la création. Il y a beaucoup d'autres options pour enlever un disque à chaud, prévoir un disque en spare, etc. Mais pour un usage classique celles ci suffisent déjà. Coté suivi : cat /proc/mdstat EDIT : ah si j'oubliais deux trucs, pour une détection automatique par linux il faut changer le type des "vraies" partition en FD (Linux raid autodetect). Ca se fait avec fdisk. Et pour se simplifier la tâche, pour recopier le partitionnement du disque A sur le disque B (attention, à ne pas faire à la légère hein) : sfdisk -d /dev/sda \| sfdisk /dev/sdb daevel : infogérance et conseil \|\| moi
mirage \| Vincent Modérateur Inscrit le : 04/05/2005	# Le 03/08/2008 à 18:11 Merci, je vais mettre ça en place quand on aura reçu le nouveau disque
mirage \| Vincent Modérateur Inscrit le : 04/05/2005	# Le 11/01/2009 à 12:00 Vive le RAID... le disque que Seagate nous a renvoyé vient de mourir. Je crois que l'on va demander un geste commercial (disque neuf ?) parce que même s'ils renvoient du reconditionné, c'est moyennement normal que ça reclaque 4 mois après...
Bool \| Olivier Modérateur Inscrit le : 09/05/2005	# Le 11/01/2009 à 12:15 Ca dépend aussi de la température d'utilisation (pour moi c'est à cause de ça qu'il y avait autant de problème de disques chez OVH il y a quelques années) ; SMART doit t'indiquer la température MAX de l'autre disque, non ? daevel : infogérance et conseil \|\| moi
mirage \| Vincent Modérateur Inscrit le : 04/05/2005	# Le 11/01/2009 à 12:32 32° d'après Smartmontools. Chez OVH, j'ai 27° de moyenne et sur mon MacBook, le disque est à 30°.
Rano \| Jean Modérateur Inscrit le : 13/04/2005	# Le 11/01/2009 à 12:36 (Je m'incruste...) j'ai un serveur qui au reboot, a un pb disk une fois sur deux en gros. Il est en raid soft : # cat /proc/mdstat Personalities : [linear] [raid0] [raid1] [raid6] [raid5] [raid4] [multipath] md1 : active raid1 sda1[0] 3148608 blocks [2/1] [U_] md2 : active raid1 sdb2[1] 74477248 blocks [2/1] [_U] unused devices: <none> Le 2/1 c'est pas bon non ? je dois faire quoi pour remettre en ordre ? Je change de serveur ? Chambres d'hote tavel Séjours en provence Forum mariage
Bool \| Olivier Modérateur Inscrit le : 09/05/2005	# Le 11/01/2009 à 16:52 Mirage : 32° c'est loin d'être énorme, il t'indique un "pic" ou pas ? Genre perso j'ai eu la ventilation d'un PC mal réglée, même si maintenant le disque est "au frais", j'ai un vilain "Airflow_Temperature_Cel => WHEN_FAILED => In_the_past" qui indique à Seagate que le disque a été soumis à une trop forte température et n'est donc plus sous garantie Rano : sur ta partition md1 c'est le disque A qui est UP et sur ton md2 c'est le disque B Donc aucun disque de vraiment claqué. daevel : infogérance et conseil \|\| moi
mirage \| Vincent Modérateur Inscrit le : 04/05/2005	# Le 12/01/2009 à 09:27 Bool a dit : Mirage : 32° c'est loin d'être énorme, il t'indique un "pic" ou pas ? Genre perso j'ai eu la ventilation d'un PC mal réglée, même si maintenant le disque est "au frais", j'ai un vilain "Airflow_Temperature_Cel => WHEN_FAILED => In_the_past" qui indique à Seagate que le disque a été soumis à une trop forte température et n'est donc plus sous garantie Non, je n'ai pas cette ligne. Actuellement (vu que c'est un serveur de backup, il ne fonctionne que la nuit), il est à 25°.
Rano \| Jean Modérateur Inscrit le : 13/04/2005	# Le 12/01/2009 à 11:23 (Bon, j'ai réussi à m'en sortir avec mdadm) Chambres d'hote tavel Séjours en provence Forum mariage

Auteur

Message

Inscrit le : 04/05/2005

# Le 03/08/2008 à 12:53

Salut,

Sur un serveur de backup (avec une Debian Etch up-to-date avec le système nu et rsync d'installé), j'ai un problème de partition qui passe en read only tous les 2 jours environ, souvent en plein milieu d'un backup.

Dans le syslog, j'ai des milliers de lignes de ce type :

Aug 3 12:46:05 constellation kernel: sda: Write Protect is off
Aug 3 12:46:05 constellation kernel: sda: Mode Sense: 00 3a 00 00
Aug 3 12:46:05 constellation kernel: ata1.00: exception Emask 0x0 SAct 0x0 SErr 0x0 action 0x0
Aug 3 12:46:05 constellation kernel: ata1.00: (BMDMA stat 0x20)
Aug 3 12:46:05 constellation kernel: ata1.00: tag 0 cmd 0x25 Emask 0x9 stat 0x51 err 0x40 (media error)
Aug 3 12:46:05 constellation kernel: ata1: EH complete
Aug 3 12:46:05 constellation kernel: ata1.00: exception Emask 0x0 SAct 0x0 SErr 0x0 action 0x0
Aug 3 12:46:05 constellation kernel: ata1.00: (BMDMA stat 0x20)
Aug 3 12:46:05 constellation kernel: ata1.00: tag 0 cmd 0x25 Emask 0x9 stat 0x51 err 0x40 (media error)
Aug 3 12:46:05 constellation kernel: ata1: EH complete
Aug 3 12:46:05 constellation kernel: ata1.00: exception Emask 0x0 SAct 0x0 SErr 0x0 action 0x0
Aug 3 12:46:05 constellation kernel: ata1.00: (BMDMA stat 0x20)
Aug 3 12:46:05 constellation kernel: ata1.00: tag 0 cmd 0x25 Emask 0x9 stat 0x51 err 0x40 (media error)
Aug 3 12:46:05 constellation kernel: ata1: EH complete
Aug 3 12:46:05 constellation kernel: ata1.00: exception Emask 0x0 SAct 0x0 SErr 0x0 action 0x0
Aug 3 12:46:05 constellation kernel: ata1.00: (BMDMA stat 0x20)
Aug 3 12:46:05 constellation kernel: ata1.00: tag 0 cmd 0x25 Emask 0x9 stat 0x51 err 0x40 (media error)
Aug 3 12:46:05 constellation kernel: ata1: EH complete
Aug 3 12:46:05 constellation kernel: ata1.00: exception Emask 0x0 SAct 0x0 SErr 0x0 action 0x0
Aug 3 12:46:05 constellation kernel: ata1.00: (BMDMA stat 0x20)
Aug 3 12:46:05 constellation kernel: ata1.00: tag 0 cmd 0x25 Emask 0x9 stat 0x51 err 0x40 (media error)
Aug 3 12:46:05 constellation kernel: ata1: EH complete
Aug 3 12:46:05 constellation kernel: ata1.00: exception Emask 0x0 SAct 0x0 SErr 0x0 action 0x0
Aug 3 12:46:05 constellation kernel: ata1.00: (BMDMA stat 0x20)
Aug 3 12:46:05 constellation kernel: ata1.00: tag 0 cmd 0x25 Emask 0x9 stat 0x51 err 0x40 (media error)
Aug 3 12:46:05 constellation kernel: sd 0:0:0:0: SCSI error: return code = 0x08000002
Aug 3 12:46:05 constellation kernel: sda: Current: sense key: Medium Error
Aug 3 12:46:05 constellation kernel: Additional sense: Unrecovered read error - auto reallocate failed
Aug 3 12:46:05 constellation kernel: end_request: I/O error, dev sda, sector 432427986
Aug 3 12:46:05 constellation kernel: ata1: EH complete
Aug 3 12:46:05 constellation kernel: SCSI device sda: drive cache: write back
Aug 3 12:46:05 constellation kernel: SCSI device sda: 488397168 512-byte hdwr sectors (250059 MB)
Aug 3 12:46:05 constellation kernel: sda: Write Protect is off
Aug 3 12:46:05 constellation kernel: sda: Mode Sense: 00 3a 00 00
Aug 3 12:46:05 constellation kernel: SCSI device sda: drive cache: write back

J'ai aussi Smart qui m'envoie des erreurs par mail :

Device: /dev/sda, ATA error count increased from 16488 to 17388
Device: /dev/sda, 90 Currently unreadable (pending) sectors
Device: /dev/sda, 90 Offline uncorrectable sectors

J'ai bien l'impression que le disque va rendre l'âme. J'ai raison ?

NB : J'ai lancé un test smartmontools, encore environ 2h avant qu'il soit complet.

Bool | Olivier
Modérateur

Inscrit le : 09/05/2005

# Le 03/08/2008 à 13:41

Hello,

ça m'en a tout l'air oui. Déja une partition qui passe en readonly, généralement c'est pas bon signe (même si le disque n'a rien, le FS en tous cas a un coup dans l'aile).

Pour smartmontools, c'est bien aussi de faire des tests complets régulièrement, et ça fait partie de ses options. Y a des exemples dans le fichier de conf (/etc/smartd.conf) :

-s (S/../.././02|L/../../6/03)

start a short self-test every day between 2-3am, and a long self test Saturdays between 3-4am.

Vu le peu d'impact sur les perfs, c'est un truc à prévoir en continue.

Et sinon un "smartctl -a /dev/sda" donne des chiffres inquiétants dans le zouli tableau ?
D'ailleurs pour comprendre un peu ce qu'il raconte : http://en.wikipedia.org/wiki/Self-Monitoring%2C_An...

daevel : infogérance et conseil || moi

mirage | Vincent
Modérateur

Inscrit le : 04/05/2005

# Le 03/08/2008 à 13:51

Bool a dit :
ça m'en a tout l'air oui. Déja une partition qui passe en readonly, généralement c'est pas bon signe (même si le disque n'a rien, le FS en tous cas a un coup dans l'aile).

Ouep, on est d'accord.

Bool a dit :
Pour smartmontools, c'est bien aussi de faire des tests complets régulièrement, et ça fait partie de ses options. Y a des exemples dans le fichier de conf (/etc/smartd.conf) :

-s (S/../.././02|L/../../6/03)

start a short self-test every day between 2-3am, and a long self test Saturdays between 3-4am.

Vu le peu d'impact sur les perfs, c'est un truc à prévoir en continue.

C'est déjà en place et c'est ça qui m'envoie des mails depuis quelques temps... mais c'est voir le système de fichiers en read-only qui m'a attiré l'oeil...

Bool a dit :
Et sinon un "smartctl -a /dev/sda" donne des chiffres inquiétants dans le zouli tableau ?

Faut lui rajouter un "-d ata" pour que ça fonctionne sur les Sata. Les résultats :

=== START OF INFORMATION SECTION ===

Device Model:     ST3250620AS

Serial Number:    3QE0****

Firmware Version: 3.AAD

User Capacity:    250 059 350 016 bytes

Device is:        Not in smartctl database [for details use: -P showall]

ATA Version is:   7

ATA Standard is:  Exact ATA specification draft version not indicated

Local Time is:    Sun Aug  3 13:49:18 2008 CEST

SMART support is: Available - device has SMART capability.

SMART support is: Enabled



=== START OF READ SMART DATA SECTION ===

SMART overall-health self-assessment test result: PASSED



General SMART Values:

Offline data collection status:  (0x82)	Offline data collection activity

					was completed without error.

					Auto Offline Data Collection: Enabled.

Self-test execution status:      ( 121)	The previous self-test completed having

					the read element of the test failed.

Total time to complete Offline 

data collection: 		 ( 430) seconds.

Offline data collection

capabilities: 			 (0x5b) SMART execute Offline immediate.

					Auto Offline data collection on/off support.

					Suspend Offline collection upon new

					command.

					Offline surface scan supported.

					Self-test supported.

					No Conveyance Self-test supported.

					Selective Self-test supported.

SMART capabilities:            (0x0003)	Saves SMART data before entering

					power-saving mode.

					Supports SMART auto save timer.

Error logging capability:        (0x01)	Error logging supported.

					General Purpose Logging supported.

Short self-test routine 

recommended polling time: 	 (   1) minutes.

Extended self-test routine

recommended polling time: 	 (  92) minutes.



SMART Attributes Data Structure revision number: 10

Vendor Specific SMART Attributes with Thresholds:

ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE

  1 Raw_Read_Error_Rate     0x000f   104   100   006    Pre-fail  Always       -       24948094

  3 Spin_Up_Time            0x0003   096   096   000    Pre-fail  Always       -       0

  4 Start_Stop_Count        0x0032   100   100   020    Old_age   Always       -       29

  5 Reallocated_Sector_Ct   0x0033   097   097   036    Pre-fail  Always       -       135

  7 Seek_Error_Rate         0x000f   078   060   030    Pre-fail  Always       -       79645534

  9 Power_On_Hours          0x0032   100   100   000    Old_age   Always       -       713

 10 Spin_Retry_Count        0x0013   100   100   097    Pre-fail  Always       -       0

 12 Power_Cycle_Count       0x0032   100   100   020    Old_age   Always       -       82

187 Unknown_Attribute       0x0032   001   001   000    Old_age   Always       -       65535

189 Unknown_Attribute       0x003a   100   100   000    Old_age   Always       -       0

190 Unknown_Attribute       0x0022   061   060   045    Old_age   Always       -       73688023079

194 Temperature_Celsius     0x0022   039   040   000    Old_age   Always       -       39 (Lifetime Min/Max 0/25)

195 Hardware_ECC_Recovered  0x001a   057   048   000    Old_age   Always       -       221641013

197 Current_Pending_Sector  0x0012   080   001   000    Old_age   Always       -       409

198 Offline_Uncorrectable   0x0010   080   001   000    Old_age   Offline      -       409

199 UDMA_CRC_Error_Count    0x003e   200   200   000    Old_age   Always       -       0

200 Multi_Zone_Error_Rate   0x0000   100   253   000    Old_age   Offline      -       0

202 TA_Increase_Count       0x0032   100   253   000    Old_age   Always       -       0



SMART Error Log Version: 1

ATA Error Count: 20582 (device log contains only the most recent five errors)

	CR = Command Register [HEX]

	FR = Features Register [HEX]

	SC = Sector Count Register [HEX]

	SN = Sector Number Register [HEX]

	CL = Cylinder Low Register [HEX]

	CH = Cylinder High Register [HEX]

	DH = Device/Head Register [HEX]

	DC = Device Command Register [HEX]

	ER = Error register [HEX]

	ST = Status register [HEX]

Powered_Up_Time is measured from power on, and printed as

DDd+hh:mm:SS.sss where DD=days, hh=hours, mm=minutes,

SS=sec, and sss=millisec. It "wraps" after 49.710 days.



Error 20582 occurred at disk power-on lifetime: 712 hours (29 days + 16 hours)

  When the command that caused the error occurred, the device was active or idle.



  After command completion occurred, registers were:

  ER ST SC SN CL CH DH

  -- -- -- -- -- -- --

  40 51 00 d5 53 c6 e0  Error: UNC at LBA = 0x00c653d5 = 12997589



  Commands leading to the command that caused the error were:

  CR FR SC SN CL CH DH DC   Powered_Up_Time  Command/Feature_Name

  -- -- -- -- -- -- -- --  ----------------  --------------------

  25 00 08 d2 53 c6 e0 00      06:44:50.284  READ DMA EXT

  ec 00 00 d5 53 c6 a0 00      06:44:50.283  IDENTIFY DEVICE

  25 00 08 d2 53 c6 e0 00      06:44:48.324  READ DMA EXT

  ec 00 00 d5 53 c6 a0 00      06:44:48.323  IDENTIFY DEVICE

  25 00 08 d2 53 c6 e0 00      06:44:46.363  READ DMA EXT



Error 20581 occurred at disk power-on lifetime: 712 hours (29 days + 16 hours)

  When the command that caused the error occurred, the device was active or idle.



  After command completion occurred, registers were:

  ER ST SC SN CL CH DH

  -- -- -- -- -- -- --

  40 51 00 d5 53 c6 e0  Error: UNC at LBA = 0x00c653d5 = 12997589



  Commands leading to the command that caused the error were:

  CR FR SC SN CL CH DH DC   Powered_Up_Time  Command/Feature_Name

  -- -- -- -- -- -- -- --  ----------------  --------------------

  25 00 08 d2 53 c6 e0 00      06:44:50.284  READ DMA EXT

  ec 00 00 d5 53 c6 a0 00      06:44:50.283  IDENTIFY DEVICE

  25 00 08 d2 53 c6 e0 00      06:44:48.324  READ DMA EXT

  ec 00 00 d5 53 c6 a0 00      06:44:48.323  IDENTIFY DEVICE

  25 00 08 d2 53 c6 e0 00      06:44:46.363  READ DMA EXT



Error 20580 occurred at disk power-on lifetime: 712 hours (29 days + 16 hours)

  When the command that caused the error occurred, the device was active or idle.



  After command completion occurred, registers were:

  ER ST SC SN CL CH DH

  -- -- -- -- -- -- --

  40 51 00 d5 53 c6 e0  Error: UNC at LBA = 0x00c653d5 = 12997589



  Commands leading to the command that caused the error were:

  CR FR SC SN CL CH DH DC   Powered_Up_Time  Command/Feature_Name

  -- -- -- -- -- -- -- --  ----------------  --------------------

  25 00 08 d2 53 c6 e0 00      06:44:50.284  READ DMA EXT

  ec 00 00 d5 53 c6 a0 00      06:44:50.283  IDENTIFY DEVICE

  25 00 08 d2 53 c6 e0 00      06:44:48.324  READ DMA EXT

  ec 00 00 d5 53 c6 a0 00      06:44:48.323  IDENTIFY DEVICE

  25 00 08 d2 53 c6 e0 00      06:44:46.363  READ DMA EXT



Error 20579 occurred at disk power-on lifetime: 712 hours (29 days + 16 hours)

  When the command that caused the error occurred, the device was active or idle.



  After command completion occurred, registers were:

  ER ST SC SN CL CH DH

  -- -- -- -- -- -- --

  40 51 00 d5 53 c6 e0  Error: UNC at LBA = 0x00c653d5 = 12997589



  Commands leading to the command that caused the error were:

  CR FR SC SN CL CH DH DC   Powered_Up_Time  Command/Feature_Name

  -- -- -- -- -- -- -- --  ----------------  --------------------

  25 00 08 d2 53 c6 e0 00      06:44:38.454  READ DMA EXT

  ec 00 00 d5 53 c6 a0 00      06:44:38.453  IDENTIFY DEVICE

  25 00 08 d2 53 c6 e0 00      06:44:48.324  READ DMA EXT

  ec 00 00 d5 53 c6 a0 00      06:44:48.323  IDENTIFY DEVICE

  25 00 08 d2 53 c6 e0 00      06:44:46.363  READ DMA EXT



Error 20578 occurred at disk power-on lifetime: 712 hours (29 days + 16 hours)

  When the command that caused the error occurred, the device was active or idle.



  After command completion occurred, registers were:

  ER ST SC SN CL CH DH

  -- -- -- -- -- -- --

  40 51 00 d5 53 c6 e0  Error: UNC at LBA = 0x00c653d5 = 12997589



  Commands leading to the command that caused the error were:

  CR FR SC SN CL CH DH DC   Powered_Up_Time  Command/Feature_Name

  -- -- -- -- -- -- -- --  ----------------  --------------------

  25 00 08 d2 53 c6 e0 00      06:44:38.454  READ DMA EXT

  ec 00 00 d5 53 c6 a0 00      06:44:38.453  IDENTIFY DEVICE

  25 00 08 d2 53 c6 e0 00      06:44:36.501  READ DMA EXT

  ca 00 08 6c 35 1c e1 00      06:44:36.500  WRITE DMA

  ca 00 08 ba 07 69 e0 00      06:44:46.363  WRITE DMA



SMART Self-test log structure revision number 1

Num  Test_Description    Status                  Remaining  LifeTime(hours)  LBA_of_first_error

# 1  Extended offline    Completed: read failure       90%       713         432427989

# 2  Short offline       Completed: read failure       90%       701         430390525

# 3  Extended offline    Completed: read failure       90%       700         430390525

# 4  Short offline       Completed: read failure       90%       691         430390525



SMART Selective self-test log data structure revision number 1

 SPAN  MIN_LBA  MAX_LBA  CURRENT_TEST_STATUS

    1        0        0  Not_testing

    2        0        0  Not_testing

    3        0        0  Not_testing

    4        0        0  Not_testing

    5        0        0  Not_testing

Selective self-test flags (0x0):

  After scanning selected spans, do NOT read-scan remainder of disk.

If Selective self-test is pending on power-up, resume after 0 minute delay.

Le disque est encore sous garantie par Seagate (jusqu'en 2011) mais on l'a acheté chez LDLC. Je passe par LDLC ou Seagate ? (LDLC risque d'avoir des délais plus rapides mais je doute qu'ils en veuillent, ça fait plus d'un an qu'on l'a acheté)

Bool | Olivier
Modérateur

Inscrit le : 09/05/2005

# Le 03/08/2008 à 15:03

Aucun test "long" ou "court" n'a pu être fait jusqu'au bout : à chaque fois il a échoué dès 10%... et tu as attendu que la partition passe en readonly pour t'inquiéter de la santé d'un disque sur une machine de backup ? Elle est en RAID au moins ?

Coté SAV, aucune idée.

PS : normalement le "-d ata" n'a pas besoin d'être reprécisé une fois le disque déclaré dans le fichier de conf

daevel : infogérance et conseil || moi

mirage | Vincent
Modérateur

Inscrit le : 04/05/2005

# Le 03/08/2008 à 15:06

Bool a dit :
Aucun test "long" ou "court" n'a pu être fait jusqu'au bout : à chaque fois il a échoué dès 10%... et tu as attendu que la partition passe en readonly pour t'inquiéter de la santé d'un disque sur une machine de backup ?

Elle est en RAID au moins ?

Mouep, j'ai pas spécialement fait attention et elle n'est pas en RAID non... je ne maîtrise pas suffisamment pour le faire (j'ai rien trouvé de suffisamment clair pour le faire mais si tu as, je prends

).

Bon on va voir avec LDLC puis Seagate s'il le faut

Merci Bool

caaptusss | Jérémy
Membre

Inscrit le : 25/09/2007

# Le 03/08/2008 à 15:18

Chez Maxtor, ça se fait via leur site, tu donne le numéro de série, tu renvoit, et tu reçoit le nouveau disque 2 semaines plus tard.

Chez Seagate, ça doit être pareil je pense.

FirstHeberg.com

Bool | Olivier
Modérateur

Inscrit le : 09/05/2005

# Le 03/08/2008 à 17:24

Mettre en place un raid software est très simple :

Tu installes mdadm, sous Debian :

aptitude install mdadm

Et pour créer la partition raid md6 (en raid 1) sur sda6 + sdb6 :

mdadm --create /dev/md6 --level=1 --raid-devices=2 /dev/sda6 /dev/sdb6

Il y a aussi des raccourcis :

mdadm --create /dev/md7 --level=5 --raid-devices=4 /dev/sd[abcd]4

Par sécurité, penser à faire un mdadm --detail --scan qui va lister les partitions RAID puis les ajouter dans le fichier de conf /etc/mdadm.conf (il y a une section dédiée à cela).

Ce qui donnerait par exemple :

# definitions of existing MD arrays

ARRAY /dev/md1 level=raid1 num-devices=2 UUID=fc88c62b:fb3d99b9:d7c99dca:37f14355

ARRAY /dev/md6 level=raid0 num-devices=2 UUID=a0a674bd:ab877688:d7c99dca:37f14355

ARRAY /dev/md7 level=raid1 num-devices=2 UUID=ce59350e:5c7033cf:d7c99dca:37f14355

ARRAY /dev/md8 level=raid1 num-devices=2 UUID=0b14c790:40ef9d84:d7c99dca:37f14355

ARRAY /dev/md9 level=raid1 num-devices=2 UUID=774e0444:94615dea:d7c99dca:37f14355

C'est tout pour ce qui est de la création.
Il y a beaucoup d'autres options pour enlever un disque à chaud, prévoir un disque en spare, etc. Mais pour un usage classique celles ci suffisent déjà.

Coté suivi :

cat /proc/mdstat

EDIT : ah si j'oubliais deux trucs, pour une détection automatique par linux il faut changer le type des "vraies" partition en FD (Linux raid autodetect). Ca se fait avec fdisk.

Et pour se simplifier la tâche, pour recopier le partitionnement du disque A sur le disque B (attention, à ne pas faire à la légère hein) :

sfdisk -d /dev/sda | sfdisk /dev/sdb

daevel : infogérance et conseil || moi

mirage | Vincent
Modérateur

Inscrit le : 04/05/2005

# Le 03/08/2008 à 18:11

Merci, je vais mettre ça en place quand on aura reçu le nouveau disque

mirage | Vincent
Modérateur

Inscrit le : 04/05/2005

# Le 11/01/2009 à 12:00

Vive le RAID... le disque que Seagate nous a renvoyé vient de mourir.

Je crois que l'on va demander un geste commercial (disque neuf ?) parce que même s'ils renvoient du reconditionné, c'est moyennement normal que ça reclaque 4 mois après...

Bool | Olivier
Modérateur

Inscrit le : 09/05/2005

# Le 11/01/2009 à 12:15

Ca dépend aussi de la température d'utilisation (pour moi c'est à cause de ça qu'il y avait autant de problème de disques chez OVH il y a quelques années) ; SMART doit t'indiquer la température MAX de l'autre disque, non ?

daevel : infogérance et conseil || moi

mirage | Vincent
Modérateur

Inscrit le : 04/05/2005

# Le 11/01/2009 à 12:32

32° d'après Smartmontools. Chez OVH, j'ai 27° de moyenne et sur mon MacBook, le disque est à 30°.

Rano | Jean
Modérateur

Inscrit le : 13/04/2005

# Le 11/01/2009 à 12:36

(Je m'incruste...) j'ai un serveur qui au reboot, a un pb disk une fois sur deux en gros. Il est en raid soft :



# cat /proc/mdstat 

Personalities : [linear] [raid0] [raid1] [raid6] [raid5] [raid4] [multipath] 

md1 : active raid1 sda1[0]

      3148608 blocks [2/1] [U_]

      

md2 : active raid1 sdb2[1]

      74477248 blocks [2/1] [_U]

      

unused devices: <none>

Le 2/1 c'est pas bon non ?

je dois faire quoi pour remettre en ordre ? Je change de serveur ?

Chambres d'hote tavel
Séjours en provence
Forum mariage

Bool | Olivier
Modérateur

Inscrit le : 09/05/2005

# Le 11/01/2009 à 16:52

Mirage : 32° c'est loin d'être énorme, il t'indique un "pic" ou pas ? Genre perso j'ai eu la ventilation d'un PC mal réglée, même si maintenant le disque est "au frais", j'ai un vilain "Airflow_Temperature_Cel => WHEN_FAILED => In_the_past" qui indique à Seagate que le disque a été soumis à une trop forte température et n'est donc plus sous garantie

Rano : sur ta partition md1 c'est le disque A qui est UP et sur ton md2 c'est le disque B Donc aucun disque de vraiment claqué.

daevel : infogérance et conseil || moi

mirage | Vincent
Modérateur

Inscrit le : 04/05/2005

# Le 12/01/2009 à 09:27

Bool a dit :
Mirage : 32° c'est loin d'être énorme, il t'indique un "pic" ou pas ? Genre perso j'ai eu la ventilation d'un PC mal réglée, même si maintenant le disque est "au frais", j'ai un vilain "Airflow_Temperature_Cel => WHEN_FAILED => In_the_past" qui indique à Seagate que le disque a été soumis à une trop forte température et n'est donc plus sous garantie

Non, je n'ai pas cette ligne. Actuellement (vu que c'est un serveur de backup, il ne fonctionne que la nuit), il est à 25°.

Rano | Jean
Modérateur

Inscrit le : 13/04/2005

# Le 12/01/2009 à 11:23

(Bon, j'ai réussi à m'en sortir avec mdadm)

Chambres d'hote tavel
Séjours en provence
Forum mariage

Répondre

Vous ne pouvez pas participer au forum, car votre inscription n'a pas été validée. Pour vous faire valider en tant que Membre, cliquez ici.