Catégories
Informatique

Intel détaille 10 nm + Xeon Ice Lake-SP avec Sunny Cove Cores à Hot Chips 2020

Intel a finalement divulgué plus d'informations sur ses processeurs 10 nm Ice Lake Xeon attendus depuis longtemps à Hot Chips 2020, décrivant une amélioration impressionnante de ~ 18% de l'IPC et nous donnant un avant-goût de ce qui est à venir pour le centre de données de l'entreprise et le bureau haut de gamme (HEDT) plates-formes. Intel utilise depuis longtemps ses conceptions de matrice Xeon pour ses puces HEDT et de centre de données, ce qui signifie que ces nouvelles conceptions nous donnent également un aperçu de ce qu'Intel a prévu pour HEDT dans un proche avenir.

Après des années de retards, les puces 10 nm Xeon Ice Lake d'Intel sont un ajout indispensable alors que la société cherche à repousser les processeurs EPYC Rome d'AMD qui continuent de ronger la domination d'Intel sur le marché du centre de données. Intel a réduit les prix de Xeon pour rester compétitive avec EPYC Rome, et la société a fait face à encore plus de défis dans les segments des stations de travail et HEDT, les processeurs Threadripper d'AMD fournissant plus de deux fois le nombre de cœurs que les meilleurs d'Intel.

Tous ces facteurs rendent la nouvelle gamme Xeon d'Intel, et l'architecture sous-jacente, d'autant plus importantes qu'elle se dirige vers une concurrence encore plus accrue avec Les futurs processeurs EPYC Milan d'AMD, qui feront également leurs débuts à la fin de l'année. Les Xeons SuperFin Sapphire Rapids Xeons 10 nm d'Intel n'étant pas commercialisés avant la fin de 2021, la société se tourne maintenant vers ses transistors 10 nm + associés aux changements architecturaux radicaux trouvés dans les Ice Lake Xeons.

Image 1 sur 5

https://www.tomshardware.com/

(Crédit d'image: Intel via Hot Chips 2020)
Image 2 sur 5

https://www.tomshardware.com/

(Crédit d'image: Intel via Hot Chips 2020)
Image 3 sur 5

https://www.tomshardware.com/

(Crédit d'image: Intel via Hot Chips 2020)
Image 4 sur 5

https://www.tomshardware.com/

(Crédit d'image: Intel via Hot Chips 2020)
Image 5 sur 5

https://www.tomshardware.com/

(Crédit d'image: Intel via Hot Chips 2020)

Comme Intel l'a déjà noté, les puces Ice Lake tomberont dans les plates-formes de serveur Whitley à double socket, tandis que les slots Cooper Lake précédemment annoncés seront destinés aux serveurs à quatre et octo-sockets. La présentation d'Intel a plongé dans certaines des optimisations architecturales les plus fines qui, ensemble, donnent une amélioration d'IPC d'environ 18% (geomean de SPECIntRate) au même nombre de cœurs, fréquences et bande passante que les processeurs Cascade Lake (cela témoigne de l'amélioration IPC pour le Cœurs de Sunny Cove, pas le SoC). Intel affirme que l'augmentation de la fréquence et de la bande passante mémoire d'Ice Lake peut révéler des gains IPC encore plus importants.

Intel a également mis en évidence un grand réalignement de la puce à 28 cœurs de la société, qui apporte également des avancées en matière de cache, de mémoire et de débit. Notamment, Intel n'a pas divulgué les meilleurs cœurs disponibles avec les processeurs Ice Lake, nous ne savons donc pas s'il s'agit des conceptions HCC (High Core Count) ou XCC (Xtreme Core Count).

Intel fabrique Ice Lake sur son processus 10 nm +, qui n'est pas la même chose que sa nouvelle technologie SuperFin 10 nm, et grave dans les cœurs de Sunny Cove qui apportent une foule de nouvelles améliorations, y compris une allocation plus large (5 de large par opposition à 4 de large ) et des unités d'exécution associées à un prédicteur de branche amélioré. Intel a renforcé le cache L2 à 1,25 Mo et amélioré le tampon de recherche de transaction (TLB – 1,5K à 2K entrées) tout en augmentant le cache L1D à 48KB et en ajoutant un deuxième FMA (les puces Ice Lake grand public n'ont qu'un seul FMA). Intel a étendu la fenêtre hors service de 224 à 384 entrées et a augmenté la charge en vol + les entrées de magasin à 128 + 72, par opposition aux 72 + 56 trouvés sur les puces Cascade Lake. Les entrées du planificateur sont également passées de 97 à 160.

Intel a également ajouté la prise en charge d'une multitude de nouvelles instructions pour améliorer les performances de cryptographie, comme les instructions de multiplication VPMADD52, GFNI, SHA-NI, Vector AES et Vector Carry-Less, ainsi que quelques nouvelles instructions pour améliorer les performances de compression / décompression. Tous dépendent fortement de l'accélération AVX, qu'Intel a également considérablement améliorée (voir ci-dessous). Intel affirme que ces instructions apportent des améliorations de performances par cœur allant de 1,5X à 8X (encore une fois, l'horloge iso et le nombre de cœurs) sur Cascade Lake (voir la troisième diapositive ci-dessus).

Image 1 sur 7

https://www.tomshardware.com/

(Crédit d'image: Intel via Hot Chips 2020)
Image 2 sur 7

https://www.tomshardware.com/

(Crédit d'image: Intel via Hot Chips 2020)
Image 3 sur 7

https://www.tomshardware.com/

(Crédit d'image: Intel via Hot Chips 2020)
Image 4 sur 7

https://www.tomshardware.com/

(Crédit d'image: Intel via Hot Chips 2020)
Image 5 sur 7

https://www.tomshardware.com/

(Crédit d'image: Intel via Hot Chips 2020)
Image 6 sur 7

https://www.tomshardware.com/

(Crédit d'image: Intel via Hot Chips 2020)
Image 7 sur 7

https://www.tomshardware.com/

(Crédit d'image: Intel via Hot Chips 2020)

Intel a également apporté des modifications importantes à l'architecture SoC, qui comprend une hiérarchie de mémoire et un sous-système d'E / S remaniés. L'interconnexion de maillage cohérente revient avec un agencement similaire d'anneaux horizontaux et verticaux présents sur la gamme Cascade Lake-SP, mais avec un réalignement des différents éléments, comme les cœurs, les connexions UPI et les huit canaux de mémoire DDR4 qui sont maintenant divisés en quatre contrôleurs double canal. Intel a mélangé les cœurs et a maintenant deux cœurs d'exécution au bas de la matrice regroupés avec des contrôleurs d'E / S (certaines E / S se trouvent maintenant également au bas de la matrice).

Intel affirme que le cache partagé est disponible pour tous les cœurs avec une latence uniforme en raison de l'alignement similaire de l'agent de mise en cache d'origine et des éléments de filtre de surveillance. Pourtant, cette conception incorpore également la pénalité de latence à deux cycles pour la traversée de cœur entre certaines rangées verticales, par opposition à la traversée à un cycle vers des cœurs alignés horizontalement.

Intel a repensé la puce pour prendre en charge deux nouvelles structures de bande latérale, l'une contrôlant la gestion de l'alimentation et l'autre utilisée pour le trafic de gestion à usage général. Ceux-ci fournissent des données de télémétrie et un contrôle aux divers blocs IP, tels que les cœurs d'exécution, les contrôleurs de mémoire, les contrôleurs PCIe / UPI, etc. Cela s'apparente à Infinity Fabric d'AMD, qui dispose également d'un mécanisme de télémétrie / contrôle de bande latérale pour les structures SoC.

La matrice comprend une structure peer-to-peer (P2P) distincte pour améliorer la bande passante entre les cœurs, et le sous-système d'E / S a également été virtualisé, ce qui, selon Intel, offre jusqu'à trois fois la bande passante de la structure par rapport à Cascade Lake. Intel a également divisé l'un des blocs UPI en deux, créant un total de trois liaisons UPI, toutes avec un contrôle précis de la puissance des liaisons UPI. Désormais, grâce à des PLL dédiées, les trois UPI peuvent moduler les fréquences d'horloge indépendamment en fonction de la charge.

PCIe 4.0 fait également son apparition tardive dans la gamme Xeon d'Intel, qui est un besoin critique face à l'EPYC d'AMD. Les quatre contrôleurs de mémoire double canal correspondent également désormais à EPYC canal par canal et prennent désormais en charge le cryptage de la mémoire totale (TME) d'Intel qui offre un cryptage DRAM via des clés AES-XTS 128 bits générées par le matériel. Cela aide également à résoudre un domaine dans lequel Intel faisait défaut par rapport aux processeurs EPYC d'AMD, mais comme la mise en œuvre d'AMD, cela entraîne la perte de «  quelques '' points de pourcentage de performances.

Les contrôleurs de mémoire de la génération précédente d'Intel prenaient en charge la mémoire Optane, mais elle fonctionnait à des vitesses inférieures à celles de la DRAM standard, ce qui signifie que la mémoire système ralentirait pour correspondre aux taux de transfert de données Optane. Ces vitesses sont désormais égalisées avec les modules DIMM Optane de la série 200.

En tandem avec plusieurs autres optimisations (diapositive 5), Intel affirme qu'Ice Lake offre des améliorations significatives des performances de la bande passante mémoire par cœur (diapositive 6).

Image 1 sur 4

https://www.tomshardware.com/

(Crédit d'image: Intel via Hot Chips 2020)
Image 2 sur 4

https://www.tomshardware.com/

(Crédit d'image: Intel via Hot Chips 2020)
Image 3 sur 4

https://www.tomshardware.com/

(Crédit d'image: Intel via Hot Chips 2020)
Image 4 sur 4

https://www.tomshardware.com/

(Crédit d'image: Intel via Hot Chips 2020)

Les instructions AVX denses augmentent les performances des charges de travail correctement réglées au détriment d'une consommation d'énergie et d'une charge thermique plus élevées. Ainsi, les processeurs Cascade Lake d'Intel chutent à des fréquences plus basses (~ 600 à 900 MHz) pendant les charges de travail optimisées AVX, AVX2 et AVX-512, ce qui a entravé l'adoption plus large du code AVX. En tant que tel, les modifications apportées par Intel à son implémentation AVX sont certainement les bienvenues.

Intel a redéfini ses limites de puissance AVX pour minimiser l'impact de fréquence, produisant ainsi des fréquences plus élevées (non spécifiées) pour les opérations AVX-512 et AVX-256. Cela se fait de manière adaptative en fonction de trois niveaux de puissance différents pour différents types d'instructions, comme indiqué dans la première diapositive. Cela élimine presque le delta de fréquence entre AVX et SSE pour les opérations 256-lourdes et 512-légères, tandis que les opérations 512-lourdes ont également connu une augmentation significative. Il s'agit d'une amélioration considérable qui devrait favoriser une adoption plus large des dernières instructions d'Intel.

Intel a également réduit ses transitions à l'état P, qui est la latence impliquée dans les transitions entre l'état d'alimentation et l'état du cœur, grâce à un fonctionnement «  assez instantané ''. Intel a enregistré une réduction de 12us à ~ 0us, ce qui est une amélioration considérable. Intel a fait une réduction tout aussi impressionnante des transitions de fréquence de maillage de près de 3X et a réduit de 30% les latences de sortie typiques du C6.

Dans l'ensemble, Ice Lake-SP d'Intel semble être un grand pas en avant, et bien que les améliorations de performances aient fière allure sur papier, la vérité est toujours dans le silicium qui arrive réellement sur le marché. Nous savons également qu'AMD apportera ses propres améliorations massives associées (au moins) à 64 cœurs de pointe sur le marché avec ses processeurs AMD EPYC Milan. Les deux alignements débutent à la fin de l'année. En tant que tels, les prix et la disponibilité seront essentiels à mesure qu'Intel déploiera sa gamme Ice Lake-SP.

Laisser un commentaire

Votre adresse de messagerie ne sera pas publiée. Les champs obligatoires sont indiqués avec *