Catégories
Informatique

Raja Koduri fait clignoter le GPU 'Petaflops Scale', 4-Tile Xe HP sur Hot Chips

Au cours des derniers mois, le Raja Koduri d'Intel a lentement révélé des parties de l'architecture et de la gamme Xe Graphics à venir. La famille Xe couvrira tout, des solutions graphiques d'entrée de gamme et intégrées à faible consommation sous la marque Xe LP Graphics, jusqu'aux solutions multi-puces de centre de données avec empilage de matrices. Ce dernier dont nous parlons.

Comme discuté la semaine dernière, les graphiques Xe HP d'Intel seront disponibles en trois variantes. Le modèle de base, qui a été montré à plusieurs reprises, a une seule tuile avec 512 unités d'exécution (unités d'exécution) et très probablement deux piles HMB2e. Intel n'a pas confirmé les spécifications exactes, mais il a montré une mise à l'échelle des performances pour une charge de travail de calcul des variantes à 1, 2 et 4 tuiles:

(Crédit d'image: Intel)

La mise à l'échelle des tuiles supplémentaires peut sembler presque trop parfaite, mais il est important de noter qu'il ne s'agit pas d'une charge de travail graphique en temps réel. La division du travail entre les GPU pour des technologies telles que SLI et CrossFire est beaucoup plus difficile à faire et la mise à l'échelle à partir de GPU supplémentaires ne procure généralement aux joueurs que 50 à 80% de performances en plus au mieux. Pour les charges de travail de calcul, cependant, les tâches sont souvent indépendantes et peuvent donc atteindre une mise à l'échelle parfaite.

De peur que quiconque ne doute que le GPU à 4 tuiles n'existe pas réellement et qu'il ne soit qu'un coup de publicité, Raja a sorti le gros paquet et l'a brièvement flashé à la caméra lors de sa présentation Hot Chips. Et oui, c'est vraiment gros – beaucoup plus gros que tout autre paquet de puces que nous avons vu.

Que le Xe HP à 4 carreaux soit un jour mis en production ou s'il ne s'agit que d'un produit de test pendant qu'Intel prépare le Xe HPC, alias Ponte Vecchio, est une autre affaire.

(Crédit d'image: Intel)

Xe HP utilise uniquement EMIB pour évoluer vers des configurations multi-tuiles. Xe HPC comprendra également une tuile Rambo Cache, l'empilement de matrices Foveros et Co-EMIB avec des améliorations supplémentaires. Ponte Vecchio est prévu pour une utilisation dans le prochain supercalculateur Aurora, et il était censé être fabriqué sur la lithographie 7 nm maintenant retardée d'Intel.

Dans l'intervalle, Intel dispose désormais de silicium Xe HP à 1, 2 et 4 carreaux dans ses laboratoires. Comme vous vous en doutez, la liaison EMIB signifie que les packages des deux derniers sont fondamentalement 2x et 4x la taille de la conception de base, de sorte que les GPU nécessitent trois sockets séparés.

(Crédit d'image: Intel)

L'implémentation à 4 tuiles de Xe HP Raja présentée est capable d'environ 42 TFLOPS de calcul FP32. Cependant, ce n'est pas vraiment la capacité maximale. Raja a également mentionné que la puce à 4 tuiles est capable d'atteindre «l'informatique à l'échelle des pétaflops», soit> 1000 TFLOPS. C'est grâce à la présence de cœurs tensoriels, bien que nous ne connaissions pas la configuration exacte.

Comme L'architecture A100 de Nvidia et le TPUv4 de Google, Xe HP prend en charge les cœurs tensoriels. Nous supposons qu'ils sont capables de 128 opérations par cycle, avec un noyau tenseur par UE. Avec 2048 UE, cela nous donne:

2048 × 128 × 2 (FMA) = 524.288

Nous manquons de vitesse d'horloge, ce qui suggérerait soit une ligne de base de 2 GHz pour un pétaflop, soit potentiellement un arrangement de noyau de tenseur différent qui peut faire plus de 128 opérations par horloge. Quoi qu'il en soit, cela devrait permettre aux supercalculateurs d'atteindre plus facilement le niveau de l'informatique exascale.

Laisser un commentaire

Votre adresse de messagerie ne sera pas publiée. Les champs obligatoires sont indiqués avec *