Les options de calcul scientifique mûrissent dans le cloud

Par Agam Shah

31 août 2023

Le calcul intensif reste en grande partie une affaire sur site pour de nombreuses raisons, notamment la puissance, la sécurité et la gestion du système. Les entreprises ont besoin de plus de temps pour déplacer leurs charges de travail vers le cloud, mais les options se multiplient. (Voir les prévisions HPC-AI récemment publiées par Intersect 360 Research.)

En août, Google Cloud et Amazon Web Services ont annoncé des machines virtuelles de calcul haute performance, qui sont en fait des versions en ligne de l'informatique fournie par les systèmes sur site. Les machines virtuelles HPC reposent sur la technologie exclusive des fournisseurs de cloud, notamment les derniers processeurs, des interconnexions ultrarapides, des fonctionnalités de sécurité et une capacité de mémoire.

Les machines virtuelles HPC prennent en charge les déploiements hybrides, dans lesquels les entreprises peuvent répartir les charges de travail entre les systèmes sur site et les machines virtuelles proposées par AWS et Google. Certains utilisateurs HPC préfèrent répartir les charges de travail de faible priorité vers le cloud, ce qui libère des ressources informatiques sur site pour exécuter des charges de travail plus critiques.

Le plus gros inconvénient du HPC dans le cloud reste les limitations de bande passante, compte tenu de la lenteur du réseau sur de grandes distances géographiques. Néanmoins, de nombreuses sociétés d'ingénierie et pharmaceutiques se tournent vers le cloud en raison de la richesse des outils de développement, de la longue liste d'ensembles de données, des outils d'analyse et de base de données et d'autres middlewares disponibles pour les clients. Des intégrateurs comme Rescale et Altair fournissent des logiciels et une assistance pour créer des environnements hybrides partagés pour les applications HPC.

Les nouvelles machines virtuelles des fournisseurs de cloud se concentrent directement sur le calcul scientifique conventionnel. Les systèmes ne sont pas destinés à l’IA et ne sont pas fournis avec des GPU. AWS et Google proposent des instances coûteuses des GPU H100 de Nvidia, destinées aux applications de calcul parallèle et d'IA.

AWS a récemment annoncé EC2 Hpc7, une machine virtuelle basée sur les puces Epyc de quatrième génération d'AMD, nommée Genoa. Hpc7a est x86, une mise à niveau des récentes instances EC2 Hpc6a basées sur les puces Epyc de génération précédente d'AMD, nommées Milan.

Le Hpc7a a le double de la capacité de mémoire dans ses configurations de VM entièrement chargées et une bande passante réseau de 300 Gbit/s. Amazon a affirmé que les instances Hpc7a sont 2,5 fois plus rapides que les instances Hpc6a. La plus grande instance hpc7a.96xlarge offre 192 cœurs de processeur et 768 Go de mémoire DDR5. Les machines virtuelles prennent en charge Elastic Fibre Adapter et les systèmes de fichiers tels que Lustre, qui sont populaires en HPC.

AWS propose d'autres machines virtuelles HPC, notamment la Hpc7g basée sur ARM, qui fonctionne sur la puce Graviton3E locale. Le Riken Center of Computational Science a construit un « Fugaku virtuel » pour Hpc7g, ou une version cloud de la pile logicielle de Fugaku, le deuxième supercalculateur le plus rapide au monde, sur AWS. Fugaku est également construit sur des processeurs ARM, ce qui rend possible la réplication de l'environnement logiciel.

Google a annoncé l'instance H3 VM pour HPC en août, qui équilibre le prix et les performances à l'aide de vitesses de réseau rapides et d'un grand nombre de cœurs de processeur.

Les configurations H3 sont basées sur les derniers processeurs Sapphire Rapids d'Intel, chaque nœud regroupant 88 cœurs de processeur et 352 Go de mémoire. Les machines virtuelles sont destinées aux applications qui ne sont pas parallélisées et sont exécutées dans des environnements monothread.

Les machines virtuelles sont construites sur le processeur de données personnalisé E2000 co-développé par Intel et Google, nommé Mount Evans. Les nœuds H3 peuvent communiquer à des vitesses de 200 Gbit/s et disposent de 16 cœurs de processeur Neoverse N1 basés sur ARM.

Les benchmarks de Google ont comparé le H3 aux précédentes machines virtuelles C2 basées sur les processeurs Intel Cascade Lake, qui sont deux générations derrière Sapphire Rapids. La machine virtuelle H3, composée uniquement de processeurs, est trois fois plus rapide en termes de performances par nœud et peut permettre aux clients d'économiser 50 % en coûts.

La comparaison n’est pas une pomme avec des pommes, car les puces de serveur sont généralement comparées aux puces de la génération précédente, dans ce cas, Ice Lake. Mais la comparaison de Google correspond davantage aux cycles de mise à niveau des serveurs, qui ont lieu tous les deux à trois ans.

Lors de son récent sommet Google Cloud Next, la société a élargi ses options de calcul haute performance pour l'IA. La société a annoncé des pods équipés de ses dernières puces TPU v5e AI et a annoncé la disponibilité générale de ses systèmes de calcul intensif A3, qui peuvent héberger 26 000 GPU Nvidia et prendre en charge le calcul parallèle. Les deux puces sont destinées à la formation et à l’inférence dans les applications d’IA.

Blog