top of page
點

NVIDIA Grace Hopper:超級晶片如何重構 AI 運算?

  • 作家相片: Amiee
    Amiee
  • 1天前
  • 讀畢需時 5 分鐘

當你的語音助理開始講得比你還快、你的影像生成工具輸出速度像開了金手指,背後都有一個共通的秘密武器:AI 運算力。隨著 AI 模型愈來愈龐大,參數數量動輒上兆、模型大小如山,傳統的 CPU + GPU 組合漸漸吃不消。為此,NVIDIA 推出了以 CPU+GPU 融合設計為核心的超級晶片組合——Grace Hopper Superchip


這不是硬體拼裝包,而是一個嶄新的架構設計,標誌著 AI 運算邁入「異質融合(Heterogeneous Computing)」的新世代。


H2O 架構解析:Grace + Hopper 的異質融合實作


被稱為 H2O 架構的設計,是指將 Grace CPU 與 Hopper GPU 這兩種不同類型的處理器,透過異質整合(heterogeneous integration)封裝在同一塊晶片模組中。


它們之間透過一種名為 NVLink-C2C(Chip-to-Chip)的高速互聯技術直接連接,形成一個高速、低延遲且共用記憶體空間的運算平台。這種設計不僅大幅提升了兩者間的資料傳輸效率(高達 900GB/s),更可減少傳統 CPU-GPU 架構中因 PCIe 接口帶來的瓶頸,進一步強化整體 AI 運算性能與記憶體存取效率。


元件

核心技術

特色

效能參數

Grace CPU

Arm Neoverse V2 架構

搭載 LPDDR5x,適合高效能與節能運算

單通道最高 480GB 記憶體、546GB/s 頻寬

Hopper GPU

Hopper 架構 + Transformer Engine

AI 訓練加速、支援 FP8 精度與第 4 代 Tensor Core

FP8 效能為 Ampere 架構 4 倍

NVLink-C2C

晶片互聯技術(Chip-to-Chip)

支援共享記憶體與低延遲通訊

頻寬達 900GB/s,為 PCIe Gen5 約 7 倍

這樣的異質設計與資料共用機制,將 CPU 與 GPU 從傳統主從架構推向共生架構,使得模型訓練不再需要頻繁搬移資料,大幅提升效能與節能效率。


NVIDIA Grace Hopper 超級晶片
NVIDIA Grace Hopper 超級晶片


雙重任務最佳化:訓練與推論一次搞定


Grace Hopper 超級晶片不只是訓練用,它更是一款為 AI 推論任務量身打造的全方位處理平台。所謂「推論」,是指在模型訓練完成後,將其應用在真實資料上進行預測或判斷的過程。這類任務常發生在聊天機器人(如 ChatGPT)、語音助理、即時翻譯、影像辨識等日常應用中,特別要求運算的速度夠快、反應夠即時、耗能不能太高。


Grace Hopper 超級晶片就是針對這樣的需求,透過 CPU 與 GPU 的協同設計達到最佳化:


  • 記憶體融合 Grace CPU 搭配 LPDDR5x 記憶體,功耗較傳統 DDR5 降低超過 2 倍(數據來自 NVIDIA 官方白皮書)。Hopper GPU 則搭載 HBM3(High Bandwidth Memory 3),每顆高達 96GB,總頻寬可達 3TB/s,記憶體總容量上看 600GB,是 AI 巨量模型運行的基石。


  • 多任務並行處理 CPU 處理資料預處理、I/O 管理與記憶體調度;GPU 專心跑模型運算,兩者透過共享記憶體同步合作,不需多餘搬移作業。


  • 軟體支援強化 Grace Hopper 支援 CUDA、NVIDIA AI、cuDNN、Transformer Engine SDK、NCCL 等完整開發堆疊,並可無縫整合至主流 AI 模型開發框架如 PyTorch、TensorFlow、JAX 與 Hugging Face Transformers。


這樣的架構也被多家雲端服務業者導入,包含 AWS、Google Cloud、Microsoft Azure 與 Oracle Cloud 等,成為 2024 年 AI 計算平台的關鍵基礎建設之一。



雲端服務平台

導入技術

應用領域

AWS

Grace Hopper 超級晶片

SageMaker 大型語言模型訓練、推論加速

Google Cloud

Grace Hopper + NVIDIA DGX GH200

Vertex AI 多模態應用訓練與推論

Microsoft Azure

Grace Hopper 與黑晶架構佈署

Azure AI 模型服務、生成式應用平台

Oracle Cloud

高速 AI VM 實例搭載 Grace Hopper

企業智慧應用、資料科學模擬

這些平台皆因應客戶對於 AI 模型推論、即時分析與大規模訓練的需求,逐步導入 Grace Hopper 作為主力 AI 基礎建設核心,進一步提升雲端環境的性能密度與效率。



Blackwell 架構登場:Grace Hopper 的強力接班人


在 2024 年 GTC(GPU Technology Conference)大會上,NVIDIA 正式發表了其新一代 GPU 架構——Blackwell 架構。這套架構是繼 Hopper 架構之後的革命性進展,不僅保留了 Hopper 針對 AI 加速的核心技術(如 Transformer Engine 與 FP8 支援),更進一步加強了晶片的整合方式、運算密度與能耗比。



NVIDIA Blackwell 架構為生成式人工智慧和加速運算帶來的突破性進展
NVIDIA Blackwell 架構為生成式人工智慧和加速運算帶來的突破性進展

Blackwell 採用雙晶片模組設計(B100 與 B200),結合先進封裝與記憶體系統,大幅提升每單位面積的算力密度,並支援更大容量與更高速的 HBM3E 記憶體。其設計目的,就是要應對下一世代 AI 模型對超高算力與即時運算的需求,例如萬億參數級別的語言模型與高解析度多模態生成應用。


  • Blackwell GPU 具備雙晶片(B100/B200)封裝設計,單一系統支援高達 192GB HBM3E 記憶體,每秒頻寬超過 8TB/s,支援超過 20 PFLOPS 的 FP8 運算能力,是 Hopper 架構 FP8 效能的兩倍以上。詳見 NVIDIA GTC 2024 發表內容。


  • Grace Blackwell 系統 延續 Grace Hopper 模型,由 Grace CPU 搭配 B100/B200 GPU 組成,支援下一代 AI 模型,如 GPT-5、Gemini Ultra 等的訓練與推論需求。


  • NVLink Switch System 擴展原本的 NVLink 技術,允許數百張 GPU 建構成大規模分散式系統,整合更彈性、模組化的 AI 資料中心架構。


簡言之,若 Grace Hopper 是為萬億參數的第一階段而生,那麼 Blackwell 就是下一個層級的「兆兆級」AI 模型與基礎設施所需的重裝備。以下整理表清楚比較這兩代架構的主要特色與應用焦點:


項目

Grace Hopper 架構

Blackwell 架構

發布年份

2022 年

2024 年

架構組合

Grace CPU + Hopper GPU

Grace CPU + B100/B200 GPU

記憶體技術

LPDDR5x + HBM3

LPDDR5x + HBM3E(頻寬翻倍)

運算焦點

萬億參數等級訓練與推論

兆兆級模型、大型多模態 AI 應用

應用場景

LLM、推論加速、數位分身

GPT-5、Gemini Ultra、AI 資料中心

架構特點

異質融合、記憶體一致性、FP8 支援

雙晶片設計、NVLink Switch、模組化擴展

這也代表,從 Grace Hopper 到 Blackwell,NVIDIA 並不只是推出更強的 GPU,而是推動整體 AI 運算平台邁入下一個大規模協作與模組化的階段。



應用場景全解析:從 LLM、科學模擬到智慧製造


Grace Hopper 與 Blackwell 架構並非只為訓練大型語言模型(LLM)而設計,它們的計算效能與記憶體架構也非常適合應用於其他高需求、高並行處理的任務。這些架構強調的是通用性與模組化,讓 AI 運算不再侷限於雲端訓練中心,也可延伸至邊緣運算與即時分析場景。以下是其主要應用範疇:


  • 大型語言模型(LLM)訓練與微調 Meta 的 Llama 3、Anthropic 的 Claude、OpenAI 的 GPT-4 系列,都可直接受惠於 H2O 與 Blackwell 的高速記憶體與運算能力。


  • 即時推論與多模態生成(如語音、影像、影片) Grace CPU 提供預處理與快取功能,讓即時應用像是 AI 配音、即時客服回應都能秒上場。


  • 數位分身(Digital Twin) 在工業製造、氣候模擬、智慧城市中,可用於建構物理與數據融合的模擬環境,並搭配 NVIDIA Omniverse 平台實現虛實整合。


  • 醫療與基因運算:支援結構性生物模擬(如蛋白質摺疊)、基因資料分析等,能顯著縮短醫療研究時間。



AI 架構的未來是異質融合


在萬億參數已成日常、生成式 AI 持續創新演化的時代,Grace Hopper 不只是超級晶片,更是一種 CPU-GPU 共生、軟硬協同的新設計典範。它象徵著從「CPU 為主、GPU 為輔」的運算思維,走向「雙中樞協作」的 AI 運算設計哲學。


未來,Blackwell 與 Grace Hopper 的系統也可能延伸出 Grace Blackwell、Blackwell Blackwell 等新組合,進一步融合記憶體、互聯與冷卻設計,為 AI 時代建構出高效、擴展、可持續的運算基礎設施。

點

Subscribe to AmiNext Newsletter

Thanks for submitting!

  • LinkedIn
  • Facebook

© 2024 by AmiNext 金融與科技筆記

bottom of page