A l’heure où tout le monde parle d’IA, il est sans doute urgent de se pencher sur la question des infrastructures nécessaires au stockage, à l’usage et à la protection des données sur lesquelles travaillent notamment les algorithmes de toute nature. Aussi bien les laboratoires de recherche que les éditeurs d’application ou encore les amateurs de Chat GPT, sont tributaires d’un accès « garanti » à la donnée. Où est-elle et comment y accède-t-on sont des sujets cruciaux pour les entreprises ? On comprend que la souveraineté, que la responsabilité et parallèlement la frugalité en matière de consommation d’énergie, soient également au cœur des conversations autour de la data dans le monde de l’enseignement supérieur.

Depuis l’apparition de l’informatique et son installation au sein des organisations de tout type, il a toujours été question d’infrastructures. Originellement les moyens physiques de stocker et d’exploiter des données se trouvaient à l’intérieur même de l’entreprise ou de l’établissement. Depuis l’avènement d’internet et la montée en puissance de nos émissions de « data », l’explosion de nos conversations et des espaces numériques que nous visitons plus de 2 heures par jour, les données sont désormais itinérantes. Elles voyagent sans cesse à travers le réseau. Outre qu’elles sont aspirées, ou consommées par des utilisateurs mobiles et ponctuels, il est clair qu’elles sont basées quelque part : dans des « data center ».

Rappelons avant de nous pencher sur le cas particulier de l’enseignement supérieur et de la recherche, une brève définition du data center :

« Un data center est une installation physique conçue pour héberger les applications et données critiques d’une ou de plusieurs organisations. Il est construit avec des équipements informatiques de calcul et de stockage pour fournir les applications et données partagées.  Les data centers hébergent de grandes quantités de données critiques et importantes, et sont donc essentiels aux fonctions quotidiennes des entreprises et des consommateurs. » [1]

Début 2022, la France comptait 264 data centers, se classant ainsi 8ème pays dans le monde, tandis que les Etats-Unis figurait en tête de ce classement avec 2701 data centers sur leur territoire. Même si l’Allemagne en recensait 456 et la Chine, seulement 443, on comprend l’angoisse montante des européens au sujet de la souveraineté numérique.

La France cultive sa différence en la matière, notamment avec la mise en place du réseau RENATER, connecteur de savoir, auquel sont raccordés initialement les différents data centers des établissements universitaires, ainsi que les centre de recherche. La volonté de disposer d’un réseau « propriétaire » permettant une certaine circulation des données mais aussi la mutualisation des infrastructures, offrant une garantie de moyens à tous les établissements. Pour autant, de nombreux projets ont vu le jour ou sont en cours de réalisation, un peu partout en France, pour accompagner la croissance exponentielle des besoins des chercheurs, des enseignants et donc des apprenants.

On distinguera trois objectifs concomitants dans le développement de ces grands data centers régionaux : l’économie budgétaire par la mutualisation, l’augmentation de la sécurité et la limitation de l’empreinte carbone. Les nouvelles infrastructures sont certes énergivores mais elles peuvent produire de la chaleur recyclable par exemple pour le chauffage urbain, créant une certaine circularité dans l’usage. On notera, pour illustrer cet enjeu écologique, qu’entre 2007 et 2021, les data centers français ont amélioré leur efficience énergétique de 47 %.

Mais la relative « gratuité » de l’accès à un data center a aussi des effets pervers. On constate par exemple que « la plupart des opérateurs du cloud constate encore que les machines virtuelles qu’ils hébergent dans leurs data centers sont nettement sous-utilisées : leurs clients commandent des serveurs en ligne pour des sommes modiques, sans nécessairement les utiliser sur la durée. » [2]

Il est important de rappeler à cet effet que les data centers de l’ESR, ont deux grands types d’usage : la recherche d’un côté avec les données recherche, et l’IT, de l’autre, avec les applicatifs de gestion et les données administratives partagées dans le « cloud » pour un usage plus quotidien.

Et c’est justement l’un des problèmes de la migration des infrastructures de certains établissements vers le cloud. Ces établissements hésitent encore à opérer ce transfert, alors même que la pratique semble massivement acceptée par les chercheurs encouragés en ce sens par la montée de la science ouverte.

Où en sommes-nous ? Quels exemples contemporains d’installation de « grands » data center mutualisés dans l’ESR ?

Les Pays de la Loire fournissent un très bel exemple de l’intérêt pour la mutualisation des moyens. En effet, le projet de mutualisation régionale de services numériques pour l’Enseignement Supérieur et la Recherche en Pays de la Loire répond à l’ambition du ministère de créer une fédération de datacentres labellisés, capacitifs et inter-connectés par des réseaux très haut débit. Co-financé par l’Europe, l’Etat, la Région Pays de la Loire, le département du Maine et Loire et les métropoles de Nantes, Angers, Le Mans, Saumur, La Roche sur Yon, Cholet, Laval ainsi que la CARENE, il a pour vocation d’offrir aux acteurs de l’enseignement supérieur et de la recherche ligériens des infrastructures numériques répondant aux enjeux actuels d’efficience énergétique et de débits réseaux élevés pour exercer leurs missions.

Le directeur stratégique de ce projet d’envergure lancé en 2020, Stéphane Amiard, Vice-Président de l’université d’Angers, nous en détaille la structure et les objectifs :

« le SIEN (Service Inter Etablissements Numérique) répond à trois missions principales : la mutualisation des infrastructures réseau régionales, la mutualisation des infrastructures datacenter régionales et la mutualisation des services applicatifs mutualisés au niveau régional. Ce qui se traduit par la création de services communs autour d’un data center connecté au réseau à très haut débit mais aussi la mise en service en 2026 d’un méso-centre de calcul. Ce dernier permettra de fournir les ressources en calcul scientifique et en stockage de données associées aux chercheurs de la région, leurs collaborateurs académiques et privés. En ce qui concerne les serveurs dédiés aux applicatifs, ils sont gérés par l’université du Mans, tandis qu’Angers est en charge du méso-centre et que Nantes développe le datacenter. Nous sommes dans l’obligation de mutualiser aussi les compétences et les équipes projet pour tenir nos engagements, et répondre aux attentes des chercheurs qui nous réclamaient déjà en 2020, un plus grand volume pour le stockage de données, des capacités de calcul très fortement augmentées et des accès à des serveurs à la volée. Les investissements prévus sont à la hauteur du projet et nous permettront par ailleurs de former les chercheurs nouveaux entrants. »

« C’est un exemple concret du projet lancé par l’Etat pour la création de 12 datacenters régionaux venant en appui des 4 centres nationaux », nous précise Hervé Luga, travaillant sur le dossier à la DGRI. « Il fallait une réponse coordonnée à la croissance des usages numériques alors même que nos personnels sont en volume à l’identique et que nous devons rendre un meilleur service à l’ensemble des usagers. L’autre objectif majeur que poursuit ce projet est d’accompagner les évolutions de la science. Dès lors qu’un projet de recherche a une dimension pluri-disciplinaire, il devient vite indispensable d’ouvrir les réseaux de données. La mutualisation et l’interconnection de plusieurs sites sont alors une excellente réponse, pourvue que l’on garantisse une sécurité extrême des centres. A ce sujet, nous menons un travail en profondeur avec le réseau Renater qui propose désormais aux data center des prestations adaptées, quasi sur-mesure à chaque centre régionalD’ailleurs, les datacenters régionaux qui regroupent le plus souvent 3 ou 4 sites, visent notamment la certification ISO 27000 sur la sécurité des serveurs et des centres de calculs. »

Hervé Luga confirme ainsi les quatre grands objectifs assignés à ce projet national :

  • Répondre au besoin croissant de services numériques et rendre un meilleur service à l’usager
  • Optimiser l’utilisation des matériels et éviter le gaspillage de ressources
  • Accompagner les évolutions de la science et favoriser l’émergence de la science ouverte
  • Organiser et renforcer la cyber-sécurité tant des sites que des données.

Les exemples les plus significatifs de l’avancement de ce projet d’envergure sont les centres de Bourgogne Franche Comté et de Strasbourg, mais l’on peut également citer l’UNIF en Ile-de-France ou encore le GRICAD de Grenoble comme modèles de réussite. Ce dernier a obtenu la labellisation Code of Conduct en 2020, et regroupe les ressources réparties sur 4 sites dont celui de l’IMAG sur le campus universitaire de Saint-Martin d’Hères. Il est devenu en septembre 2023, l’un des 6 data centers récompensés par la Commission Européenne pour son efficacité énergétique. La prochaine génération de centre de données est en projet, le GR3@, the GReen GRid GRenoble Alpes. Labellisé Datacentre Régional par le ministère, il devra héberger les ressources numériques pour répondre aux défis de demain, tout en maîtrisant l’impact environnemental.

Et la course n’est pas terminée, puisque l’Université Lyon 1 annonce le lancement des travaux de ce qui devrait être « le plus grand datacenter d’Europe, tout en réduisant de 40% sa consommation énergétique », déclare Philippe Malbos, Vice-Président en charge du numérique de l’Université. Le Centre de Calculs et de Données LyonTech-la Doua (CCDD) verra la mise en production de la première tranche fin 2024 et pour un investissement global de 11,1 M € en co-financement avec le CPER.

On le voit, le cas des Pays de la Loire n’est pas une exception, et chaque région investit rapidement pour le développement de ce réseau de data centers qui garantissent la souveraineté de notre modèle d’enseignement supérieur et de recherche.

Les travaux sont en cours et la trajectoire est tendue vers un objectif ambitieux. Gageons que tous les acteurs impliqués ont à cœur de mettre en jeu toutes les forces et talents nécessaires au succès.