Nouvelles

2025/07/10

  • zen3-7 et zen3-8 : passage à 2To de RAM
  • zen3-5 et zen3-6 : passage à 1To de RAM

2505/07/06

  • mds1 (BeeGFS) : crash entrainant interruption de l’espace de stockage

2025/04/04

Ajout de cncliff-1 (trixs)

2025/02/18

Swap DIMM A1 sur cnxv3-5.

Swap DIMM B4 sur xv3-3.

Mise en production de cnzen3-8 (trex).

2024/07/09

Ajout partition record.

2024/06/25

cnnapab-1 : souci slot B4, échange avec B8 (idem en 2016, compute-5-1).

2024/05/27

Site web finalement adapté à Ampere.

2023/02/14

compute-5-0 : remontée erreur DIMM B2 et B6, swap avec A2/A6.

2022/06/02

compute-3-3 : soucis mémoire sur DIMM A3, swap avec B3.

2022/05/25

  • compute-5-1 : soucis mémoire sur les barettes B1 et B5, swap avec A1/A5.
  • oss-0-0 : PSU1 HS, remplacement par une pièce en spare.

2022/02/01

Ajout de la partition nanox-zen3, 3 machines.

2021/11/02

compute-2-1 : redémarrage après indisponibilité, de retour.

2021/08/24-25

Diverses choses après les vacances :

  • retrait de la carte infiniband du master
  • ajout d’une carte physique idrac pour l’administration à distance
  • mise à jour du master
  • compute-1-12 : crash suite à l’OOM
  • compute-1-13 : ne voyait son second disque dur disponible, fixé
  • compute-3-5 : alerte sur la barrette B3, swap avec A3 pour voir dans le temps
  • correction ip idrac compute-3-4 et compute-3-5
  • compute-1-1 : disque sda HS, remplacé et machine réinstallée
  • compute-3-2 : alerte barrette B4, swap avec A4
  • compute-1-6 : idrac en vrac suite à upgrade firmware, drain électrique pour la remettre en état de fonctionner
  • campagne de mise à jour des firmwares des machines et des os au fil de l’eau

2021/06/22

Passage de compute-14-5 à 512Go de RAM.

2021/04/21

Ajout de la partition zen2, 6 nouvelles machines en plus des machines de molqed et actipnmr.

Retrait définitif de l’infiniband du cluster.

2021/03/30

Retrait des partitions :

  • sv6
  • xeonv1_mono
  • xeonv2_mono

6 machines au total, seront remplacées par zen2 fin avril/début mai.

2021/01/26

compute-8-0 : sda remplacé par un nouveau SSD, retour en production

compute-2-1 : sdb remplacé par un autre disque, retour en production

2021/01/05

compute-8-0 : hors service, sda cassé

2020/10/08

Mise en production des partitions actipnmr et molqed, liés aux ANR du même nom.

2020/09/03

compute-5-2 : soucis avec la barette B3, swap avec A3.

2020/06/24

compute-9-4 : CPU 2 HS, remplacé.

2020/06/16

compute-9-3 : Soucis alimentation et carte mère, les pièces ont été changés, retour en prod.

2020/05/25

Soucis mémoire sur compute-3-3, DIMM A3, investigation en cours.

2020/04/28

Le nouveau site web est en ligne, réalisé avec Hugo, disponible en Français et en Anglais. Les sources sont sur le git de l’IRSAMC.

2020/01/29

Incident sur le stockage BeeGFS, inode du MDS à 100%, impossible de passer certains calculs. Augmentation du volume dédié aux métadonnées.

2020/01/09

Maintenance cluster : tout est maintenant OK, la configuration de slurm qui engendrait des crashs est corrigée !

BeeOND a été mis en place et utilisable pour les jobs multi-noeuds : cf la doc.

2019/12/17

RMA compute-8-1 : changement barrette memoire B1.

Remise en production du compute-10-0 après maintenance.

2019/11/19

compute-8-1 : swap DIMM A1 - B1 pour check un défaut mémoire.

2019/09/17

Ajout de la partition xeonv6 (1 noeud).

2019/06/06

Crash du partage beegfs, qui fait que les jobs se terminant, ils ne pouvaient pas exécuter le prolog qui efface /mnt/beegfs/tmpdir/$JOBID

Du coup le noeud est considéré comme HS, ce qui a entrainé la panne de ce matin.

2019/01/08

compute-1-4 :

Tue Jan 08 2019 14:17:07 Drive 0 in disk drive bay 1 is operating normally.

Tue Dec 25 2018 06:59:55 Fault detected on drive 0 in disk drive bay 1.

compute-9-4 :

Alimentation HS, changement en cours avec le support Dell.

2018/10/01

compute-0-1 est hors service, cpu 4 HS

Remise en production de compute-1-[0,7,13]

Mise en production de xeonv1_mono, xeonv2_mono, sv6 (infiniband de retour).

2018/09/13

Remise en route de lpqsv26 sous son nouveau nom : lcpq-curie.

La machine est toujours accessible depuis son ancienne adresse.

Retrait des anciens compute-6-1, compute-6-2, compute-6-3, compute-0-0.

Remplacement de compute-0-0 par une machine de génération “epycv1”.

Ajout de compute-9-[1-4] (xeonv5) et compute-0-0 (epycv1).

2017/10/26

Mise en production des compute-9-0 (xeonv5) et compute-10-0 (xeonv5_mono), utilisant des Xeon Gold sur architecture Skylake.

2017/08/29

Cluster : Mise à jour sur base Centos 6.9 faite, stockage en BeeGFS 6

Casse d’un disque sur compute-0-1

Soucis mémoire sur compute-3-3 (inversion barettes A1 - B1 )

2017/07/12

Soucis montage NFS sur certains nœuds de calcul, pour corriger relancer sur le master :

service rpcbind restart
service nfs restart

Et sur les nœuds de calcul :

service autofs restart

2017/03/03

compute-3-2 : alimentation électrique HS, remplacement de celle-ci.

2017/01/18

compute-5-0 : soucis mémoire, inversion barrettes A1 <> B1

2016/11/07

Ajout du compute-7-2, type xeonv4

2016/09/26

compute-7-1 : nouveau nœud de type xeonv4 opérationnel.

2016/09/16

compute-0-3 : crash de la machine pendant la nuit. Arrêt définitif.

2016/09/01

compute-0-4 : arrêt de la machine dans la nuit du 31 août, aucun message sur l’écran, réinitialisation électrique et réinstallation.

2016/07/25

compute-6-3 : hdd 1 HS, retiré le 30 août.

Arrêt cluster pour coupure électrique

Mise à jour système, CentOS 6.8, slurm 16.05.2

Soucis mémoire sur compute-5-1 : barrette B4 (échange avec A4).

2016/06/28

Mise en production des partitions xeonv4 et xeonv4_mono (compute-7 et compute-8).

2016/06/28

Crash compute-0-4 : soucis alimentation électrique, à surveiller

2016/06/27

Soucis mémoire B4 sur compute-5-1 : a voir en septembre

Soucis frequence mémoire sur compute-7-0 : en cours avec Dell

2016/06/15

HDD n°1 HS sur compute-6-0 : retiré de la machine.

2016/06/13

Problème mémoire sur compute-2-5 : échange A2-B2.

SSD HS sur compute-50-30 : en cours avec HP.

2016/05/09-10-11

Echange barettes A3/B3 sur compute-5-0 (09/05/2016).

Deplacement et reinstallation de compute-40-3 et compute-41-0 terminé (10/05/2016).

compute-6-3 de retour.

compute-3-0 réparé ! (11/05/2016).

2016/05/03

Echange barettes A2/B2 sur compute-3-4.

Déplacement et reconfiguration/reinstallation des compute-40-[0-2].

Changement HDD HS sur compute-6-3.

Ajout module openmpi/openmpi-1.10.2-ifort16-int64 pour DIRAC Timo

2016/04/22

Blocage des computes compute-40-[0-3] et compute-41-0 pour déplacement.

2016/04/19

Soucis CPU sur compute-3-0, passage en mode maintenance.

Réseau instable sur compute-2-4 et compute-3-5, corrections.

2016/04/15

Ajout machine anr esbodyr (napab)

Ajout machines ex-sv6 (partitions sv6 et sv6_ssd)

TODO Etat des partitions au 15 avril 2016

2016/04/04

Ajout compilateur intel cluster 2016

Module pour compilateur intel 14

Intel 2014 n’est plus chargé par défaut

TODO Etat des partitions au 15 février 2016

2015/10/06

compute-0-0 & compute-0-2 sont de retours en production.

compute-0-1 est en maintenance pour faire des tests.

compute-3-3 sera en maintenance pour effectuer un remplacement de ram. Sera fait quand le calcul en cours sera fini.

compute-3-0 et compute-3-1 seront en maintenance pour augmenter le ram. Status : c’est fait (64 > 128Go).

TODO Etat des partitions au 16 octobre 2015

2015/09/23

compute-0-0 & compute-0-2 subissent des soucis hardware, ils sont pour l’instant down.