Nouvelles
2025/07/10
- zen3-7 et zen3-8 : passage à 2To de RAM
- zen3-5 et zen3-6 : passage à 1To de RAM
2505/07/06
- mds1 (BeeGFS) : crash entrainant interruption de l’espace de stockage
2025/04/04
Ajout de cncliff-1 (trixs)
2025/02/18
Swap DIMM A1 sur cnxv3-5.
Swap DIMM B4 sur xv3-3.
Mise en production de cnzen3-8 (trex).
2024/07/09
Ajout partition record.
2024/06/25
cnnapab-1 : souci slot B4, échange avec B8 (idem en 2016, compute-5-1).
2024/05/27
Site web finalement adapté à Ampere.
2023/02/14
compute-5-0 : remontée erreur DIMM B2 et B6, swap avec A2/A6.
2022/06/02
compute-3-3 : soucis mémoire sur DIMM A3, swap avec B3.
2022/05/25
- compute-5-1 : soucis mémoire sur les barettes B1 et B5, swap avec A1/A5.
- oss-0-0 : PSU1 HS, remplacement par une pièce en spare.
2022/02/01
Ajout de la partition nanox-zen3, 3 machines.
2021/11/02
compute-2-1 : redémarrage après indisponibilité, de retour.
2021/08/24-25
Diverses choses après les vacances :
- retrait de la carte infiniband du master
- ajout d’une carte physique idrac pour l’administration à distance
- mise à jour du master
- compute-1-12 : crash suite à l’OOM
- compute-1-13 : ne voyait son second disque dur disponible, fixé
- compute-3-5 : alerte sur la barrette B3, swap avec A3 pour voir dans le temps
- correction ip idrac compute-3-4 et compute-3-5
- compute-1-1 : disque sda HS, remplacé et machine réinstallée
- compute-3-2 : alerte barrette B4, swap avec A4
- compute-1-6 : idrac en vrac suite à upgrade firmware, drain électrique pour la remettre en état de fonctionner
- campagne de mise à jour des firmwares des machines et des os au fil de l’eau
2021/06/22
Passage de compute-14-5 à 512Go de RAM.
2021/04/21
Ajout de la partition zen2, 6 nouvelles machines en plus des machines de molqed et actipnmr.
Retrait définitif de l’infiniband du cluster.
2021/03/30
Retrait des partitions :
- sv6
- xeonv1_mono
- xeonv2_mono
6 machines au total, seront remplacées par zen2 fin avril/début mai.
2021/01/26
compute-8-0 : sda remplacé par un nouveau SSD, retour en production
compute-2-1 : sdb remplacé par un autre disque, retour en production
2021/01/05
compute-8-0 : hors service, sda cassé
2020/10/08
Mise en production des partitions actipnmr et molqed, liés aux ANR du même nom.
2020/09/03
compute-5-2 : soucis avec la barette B3, swap avec A3.
2020/06/24
compute-9-4 : CPU 2 HS, remplacé.
2020/06/16
compute-9-3 : Soucis alimentation et carte mère, les pièces ont été changés, retour en prod.
2020/05/25
Soucis mémoire sur compute-3-3, DIMM A3, investigation en cours.
2020/04/28
Le nouveau site web est en ligne, réalisé avec Hugo, disponible en Français et en Anglais. Les sources sont sur le git de l’IRSAMC.
2020/01/29
Incident sur le stockage BeeGFS, inode du MDS à 100%, impossible de passer certains calculs. Augmentation du volume dédié aux métadonnées.
2020/01/09
Maintenance cluster : tout est maintenant OK, la configuration de slurm qui engendrait des crashs est corrigée !
BeeOND a été mis en place et utilisable pour les jobs multi-noeuds : cf la doc.
2019/12/17
RMA compute-8-1 : changement barrette memoire B1.
Remise en production du compute-10-0 après maintenance.
2019/11/19
compute-8-1 : swap DIMM A1 - B1 pour check un défaut mémoire.
2019/09/17
Ajout de la partition xeonv6 (1 noeud).
2019/06/06
Crash du partage beegfs, qui fait que les jobs se terminant, ils ne pouvaient pas exécuter le prolog qui efface /mnt/beegfs/tmpdir/$JOBID
Du coup le noeud est considéré comme HS, ce qui a entrainé la panne de ce matin.
2019/01/08
compute-1-4 :
Tue Jan 08 2019 14:17:07 Drive 0 in disk drive bay 1 is operating normally.
Tue Dec 25 2018 06:59:55 Fault detected on drive 0 in disk drive bay 1.
compute-9-4 :
Alimentation HS, changement en cours avec le support Dell.
2018/10/01
compute-0-1 est hors service, cpu 4 HS
Remise en production de compute-1-[0,7,13]
Mise en production de xeonv1_mono, xeonv2_mono, sv6 (infiniband de retour).
2018/09/13
Remise en route de lpqsv26 sous son nouveau nom : lcpq-curie.
La machine est toujours accessible depuis son ancienne adresse.
Retrait des anciens compute-6-1, compute-6-2, compute-6-3, compute-0-0.
Remplacement de compute-0-0 par une machine de génération “epycv1”.
Ajout de compute-9-[1-4] (xeonv5) et compute-0-0 (epycv1).
2017/10/26
Mise en production des compute-9-0 (xeonv5) et compute-10-0 (xeonv5_mono), utilisant des Xeon Gold sur architecture Skylake.
2017/08/29
Cluster : Mise à jour sur base Centos 6.9 faite, stockage en BeeGFS 6
Casse d’un disque sur compute-0-1
Soucis mémoire sur compute-3-3 (inversion barettes A1 - B1 )
2017/07/12
Soucis montage NFS sur certains nœuds de calcul, pour corriger relancer sur le master :
service rpcbind restart
service nfs restart
Et sur les nœuds de calcul :
service autofs restart
2017/03/03
compute-3-2 : alimentation électrique HS, remplacement de celle-ci.
2017/01/18
compute-5-0 : soucis mémoire, inversion barrettes A1 <> B1
2016/11/07
Ajout du compute-7-2, type xeonv4
2016/09/26
compute-7-1 : nouveau nœud de type xeonv4 opérationnel.
2016/09/16
compute-0-3 : crash de la machine pendant la nuit. Arrêt définitif.
2016/09/01
compute-0-4 : arrêt de la machine dans la nuit du 31 août, aucun message sur l’écran, réinitialisation électrique et réinstallation.
2016/07/25
compute-6-3 : hdd 1 HS, retiré le 30 août.
Arrêt cluster pour coupure électrique
Mise à jour système, CentOS 6.8, slurm 16.05.2
Soucis mémoire sur compute-5-1 : barrette B4 (échange avec A4).
2016/06/28
Mise en production des partitions xeonv4 et xeonv4_mono (compute-7 et compute-8).
2016/06/28
Crash compute-0-4 : soucis alimentation électrique, à surveiller
2016/06/27
Soucis mémoire B4 sur compute-5-1 : a voir en septembre
Soucis frequence mémoire sur compute-7-0 : en cours avec Dell
2016/06/15
HDD n°1 HS sur compute-6-0 : retiré de la machine.
2016/06/13
Problème mémoire sur compute-2-5 : échange A2-B2.
SSD HS sur compute-50-30 : en cours avec HP.
2016/05/09-10-11
Echange barettes A3/B3 sur compute-5-0 (09/05/2016).
Deplacement et reinstallation de compute-40-3 et compute-41-0 terminé (10/05/2016).
compute-6-3 de retour.
compute-3-0 réparé ! (11/05/2016).
2016/05/03
Echange barettes A2/B2 sur compute-3-4.
Déplacement et reconfiguration/reinstallation des compute-40-[0-2].
Changement HDD HS sur compute-6-3.
Ajout module openmpi/openmpi-1.10.2-ifort16-int64 pour DIRAC Timo
2016/04/22
Blocage des computes compute-40-[0-3] et compute-41-0 pour déplacement.
2016/04/19
Soucis CPU sur compute-3-0, passage en mode maintenance.
Réseau instable sur compute-2-4 et compute-3-5, corrections.
2016/04/15
Ajout machine anr esbodyr (napab)
Ajout machines ex-sv6 (partitions sv6 et sv6_ssd)
TODO Etat des partitions au 15 avril 2016
2016/04/04
Ajout compilateur intel cluster 2016
Module pour compilateur intel 14
Intel 2014 n’est plus chargé par défaut
TODO Etat des partitions au 15 février 2016
2015/10/06
compute-0-0 & compute-0-2 sont de retours en production.
compute-0-1 est en maintenance pour faire des tests.
compute-3-3 sera en maintenance pour effectuer un remplacement de ram. Sera fait quand le calcul en cours sera fini.
compute-3-0 et compute-3-1 seront en maintenance pour augmenter le ram. Status : c’est fait (64 > 128Go).
TODO Etat des partitions au 16 octobre 2015
2015/09/23
compute-0-0 & compute-0-2 subissent des soucis hardware, ils sont pour l’instant down.