高頻寬記憶體 HBM:AI 時代的記憶體革命
- Amiee
- 4天前
- 讀畢需時 7 分鐘
隨著 AI 模型越訓練越肥、數據中心愈建愈燒錢,「記憶體頻寬」已悄悄成為新瓶頸。CPU 跑得快、GPU 演算猛,但如果記憶體頻寬跟不上,那就像百米短跑選手穿拖鞋 —— 你猜他能贏嗎?
HBM(High Bandwidth Memory,高頻寬記憶體)就是為了解決這個問題而生。從 HBM、HBM2、HBM2E、HBM3 到 2024 年推出的 HBM3E,它用 3D 封裝與矽穿孔(TSV)疊出一條又粗又快的資料高速公路,讓 AI 晶片不再「餓帶」。這場「頻寬革命」正在重塑整個半導體產業,從晶片設計、系統架構到資料中心冷卻方案,通通都得重新思考。
HBM 是什麼?為什麼 AI 晶片不能沒有它?
HBM 是一種特殊設計的 DRAM 記憶體,定義由 JEDEC(Joint Electron Device Engineering Council,美國電子元件工程聯合委員會)所制定,其設計突破傳統橫向排列(如 GDDR)的邏輯,採用垂直堆疊的方式來提升頻寬與效能,因此又被稱為「向上疊」:
多層 DRAM 晶粒(Die)以垂直方式堆疊起來,類似於高樓大廈一層層向上搭建,而非傳統記憶體那樣水平排列。這樣的設計能有效節省封裝面積,對於日益緊湊的 AI 晶片架構來說格外重要。每層 DRAM 之間不是單靠表層連線,而是透過 TSV(Through Silicon Via,矽穿孔)這種穿透晶粒的微型導通孔進行垂直連接,使訊號可以在極短距離內上下傳遞,降低延遲與能耗。
堆疊完成後,這些 DRAM 晶粒會與一顆邏輯控制晶片(logic die)進行共封裝(Co-packaged integration),這顆邏輯晶片負責管理資料的存取與流向,扮演記憶體與處理器之間的資料交通指揮官。透過此種緊密耦合的方式,HBM 能與主晶片(如 GPU)直接貼合,進一步減少傳輸距離與時序誤差,大幅提升資料處理效能。
相較之下,傳統的 DRAM 記憶體採用單晶粒封裝,透過主機板上的記憶體插槽(如 DDR4/DDR5 DIMM)與處理器建立聯繫,資料需經由記憶體控制器、通過主機板電路後再抵達處理器,這段路程不僅較長,還容易受到干擾與延遲限制。尤其在多記憶體通道並行運作時,傳統 DRAM 更容易因總線瓶頸或排程衝突而降低效能。HBM 的共封裝架構則讓資料傳輸幾乎免繞遠路,近距離高頻寬通訊讓效能與能效雙雙飆升,也讓 HBM 成為高效能運算領域最具代表性的記憶體革新。
這種設計的好處包括:
超高頻寬: 傳輸速率一飛衝天,HBM3E 每堆疊可達 1.2 TB/s,這幾乎是傳統 GDDR6 記憶體的兩倍甚至三倍水準。這樣的頻寬讓 AI 模型的資料讀取、梯度更新、參數交換都能以更快的速度完成,不僅提升訓練效率,更壓縮整體運算時間。對需要處理 TB 級資料的大型語言模型(LLM)而言,HBM 的頻寬等同於為神經網路裝上渦輪增壓器。
超低功耗: 垂直傳輸距離短,訊號在晶粒間幾乎不用經過長途電路,因此大幅降低能耗。在資料中心與自駕車這類對熱控與電源效率極度敏感的應用中,HBM 的低功耗特性不只是 bonus,而是能不能運作的生死線。根據 SK hynix 測試,HBM3E 比 HBM2E 整體功耗降低了超過 20%,對需要大量部署的雲端環境來說,這代表每瓦效能比的大躍進。
封裝面積小: 由於採用 3D 垂直堆疊架構,HBM 可在同一塊封裝基板上塞進更多記憶體容量,不需像傳統 DRAM 那樣沿著主機板邊緣鋪陳。這讓晶片設計師有更多空間發揮,可以在有限面積內加入更多處理核心、AI 引擎或 CPO 光電元件。換句話說,HBM 幫助晶片「小中見大」,是實現高效能、高密度設計的關鍵一環。
更重要的是,這些優勢並非只是理論上的數字,而是在現實應用中提供了極大的效能提升與熱設計優勢。對 AI 訓練來說,HBM 就像是在大腦旁邊放了資料加速器,越貼近核心、傳輸越快,這種設計大大減少了資料來回搬運的瓶頸,能讓每一塊 GPU 都像打了雞血一樣跑起來。
HBM v.s GDDR:記憶體界的 F1 跟 SUV
在記憶體技術的發展歷程中,GDDR(Graphics Double Data Rate)與 HBM(High Bandwidth Memory)可說是兩種不同設計哲學的代表。前者強調成熟性與成本效益,廣泛應用於遊戲顯示卡與桌上型電腦中;後者則以超高頻寬與緊湊封裝為特點,鎖定的是高效能運算(HPC)、AI 模型訓練等極端計算場景。
GDDR 採用傳統橫向排列的封裝形式,透過寬頻匯流排與 GPU 連接,頻寬來自於提高傳輸率與增加位元通道。然而,隨著速度提升,功耗與訊號完整性挑戰也水漲船高。
相比之下,HBM 則將記憶體模組以 3D 方式垂直堆疊,透過矽穿孔(TSV)進行資料傳輸,不僅頻寬密度大幅提高,還能有效降低耗能與封裝面積。這種設計特別適合空間受限但又極需資料吞吐的晶片架構,正好對應 AI 晶片日益強大的需求。
項目 | HBM3E | GDDR6X |
頻寬 | 高達 1.2 TB/s | 約 768 GB/s |
功耗 | 更省 | 較高 |
封裝方式 | 垂直堆疊 | 橫向排列 |
成本 | 較高 | 較低 |
適用場景 | AI、HPC、高速繪圖 | 遊戲 GPU、PC |
如果把 GDDR 想像成實用的 SUV,那 HBM 就像是為 F1 賽車而生的引擎,沒那麼便宜,但超爆快。這也說明了為什麼消費級顯示卡不急著全面換成 HBM —— 畢竟不是每個人都在做大型語言模型、不是每張顯卡都要跑 GPT-5。HBM 的價值,是在需要吞吐量如洪水般湧現的任務中才真正被發揮。
HBM 的進化史:從 HBM1 到 HBM3E
從誕生以來,HBM 就不是為了「大眾市場」而設計的技術,而是誕生在高效能需求驅動的應用情境之中。隨著 AI、HPC(高效能運算)、機器學習、圖形運算等領域對記憶體速度與容量的要求越來越高,傳統記憶體架構已逐漸無法應付新時代的需求。在這樣的背景下,HBM 技術開始快速進化,從最初的 HBM 到今日的 HBM3E,不僅提升了單一模組的頻寬與容量,更在封裝方式與可靠度方面持續突破。
每一代 HBM 的升級,都伴隨著製程精進、封裝技術創新與傳輸協定的優化,背後牽動的不只是記憶體產業本身,更是整個 AI 晶片設計與資料中心架構的革命。
規格 | 發布時間 | 單堆頻寬 | 最大容量 | 堆疊層數 |
HBM | 2013 | 128 GB/s | 1 GB | 4 |
HBM2 | 2016 | 256 GB/s | 8 GB | 8 |
HBM2E | 2020 | 460 GB/s | 16 GB | 8 |
HBM3 | 2022 | 819 GB/s | 24 GB | 12 |
HBM3E | 2024 | 1.2 TB/s | 24~36 GB | 12~16 |
從初代 HBM 到 HBM3E,我們可以看到三大演進主軸:頻寬暴增、堆疊變高、容量變大。這些進步不是為了「炫技」,而是應對如生成式 AI、數值模擬、大型圖形計算等需求大爆炸的場景。尤其是 HBM3E,幾乎是為下一世代 AI 訓練晶片量身打造,像 NVIDIA Blackwell、AMD MI300,都指定 HBMX 當作標配記憶體配置,甚至有分析師預估,HBM 將左右未來 AI 晶片的勝敗。
誰在做 HBM?市場三大巨頭出列
在技術快速演進的 HBM 記憶體領域中,掌握製程與封裝技術的企業,等同於掌握 AI 晶片供應鏈的話語權。與傳統 DRAM 不同,HBM 所需的先進封裝技術(如 2.5D/3D IC 整合)、TSV 打孔精度與熱設計要求極高,僅有少數幾家全球頂尖的半導體記憶體公司有能力投入生產並達到穩定良率。
以下列出的三大企業,不僅在技術指標上領先,更在實際出貨、產能部署與客戶合作方面形成三足鼎立之勢。
目前全球 HBM 市場幾乎是這三巨頭的天下:
公司 | 最新產品 | 關鍵特色 |
SK hynix | HBM3E | 全球首家出貨給 NVIDIA,速度破表 |
Micron | HBM3E | 強調能源效率、預計 2025 上半年量產 |
Samsung | HBM3P / HBM4 | 瞄準未來 CPO 整合與 AI 晶圓堆疊 |
這三間公司不只是在比速度、容量與層數,更是在競逐 AI 產業的供應鏈霸權。HBM 不只是記憶體,更是一個關鍵零組件的主控權爭奪戰。誰能率先量產、穩定交貨、給出最佳的效能/功耗比,誰就能搶下 AI 晶片製造商的大單。
根據 Yole Group 預估,2024~2028 年 HBM 市場年複合成長率將達 36%,整個市場將從利基型產品走向主流化,成為未來 HPC、AI、邊緣裝置與資料中心不可或缺的核心記憶體選擇。
HBM 的應用場景:你以為只有 AI?錯了。
大型 AI 模型訓練: OpenAI、Meta、Google Cloud 使用的 AI 加速器都指名 HBMX(不是 BMW)記憶體。這些模型參數動輒數千億,如果沒有足夠的頻寬,即使你有最強的 GPU,也會被卡在記憶體資料搬運上。
超級電腦 HPC: 如 Frontier、Fugaku,都是 HBM 打底。這些超級電腦運行複雜的模擬與分析任務,需要每一秒都最大化計算與資料吞吐的效率。
自駕車 AI 系統: 邊緣裝置空間小、耗電敏感,HBM 是理想解。尤其是電動車內建的大型感測與影像處理模組,若無 HBM 支援,很難達成毫秒等級的決策。
資料中心: 高密度、高熱環境,HBM 更好散熱設計為其加分。加上垂直堆疊特性,讓資料中心能在有限空間內放進更多記憶體模組,對雲端服務供應商來說,是節省空間與電費的雙重好選擇。
黑色幽默一下:為什麼大家都愛 HBM?
因為它讓晶片從「我快要餓死」變成「我吃太快但還能更快」。
如果記憶體是肚子,HBM 就是連接胃和腦袋的特急快線。沒有它,AI 模型的訓練就像吃泡麵卻拿湯匙,累還慢。
而且最悲哀的是:GPU 太強,記憶體太慢,會讓系統效率反而下降,像你明明有一台超跑,卻每天塞在巷口出不去。HBM 就是開了通往賽道的高速公路,讓你能「暢跑無阻」。
結語:AI 晶片界的「胃口之戰」,你押誰贏?
在 AI 巨獸持續成長、模型一代比一代大、算力比一比誰更快的世界裡,記憶體早已不是邊緣人。
HBM 正走向舞台中央,成為 AI 基礎建設裡的高頻寬支柱。如果說 GPU 是大腦,那 HBM 就是給它吃下去的「記憶體能量棒」。你還記得,這世界誰能餵得快、餵得夠,誰就能訓得動 AI 巨獸。
未來,我們可能會看到更多「AI SoC + HBM + CPO + Chiplet」的混合架構登場,而這每一塊拼圖都會決定一家公司能否在 AI 賽局中勝出。