NVIDIA cuQuantum 是一個包含優化庫和工具的 SDK,可將電路和設備級別的量子計算模擬加速幾個數量級。借助 NVIDIA Tensor Core GPU,開發者可以將基于量子動力學、狀態向量和張量網絡方法的量子計算機模擬加速幾個數量級。在許多情況下,這為研究人員提供了在其他情況下無法實現的規模和速度模擬。
cuQuantum 25.06 有哪些新功能?
25.06 更新所有 cuQuantum 庫:cuDensityMat、cuStateVec 和 cuTensorNet。新功能包括量子動力學工作流的梯度、NVIDIA Grace Blackwell、NVIDIA GB200 NVL72 和 NVIDIA GB300 NVL72 系統的進一步優化,以及密度矩陣重新規范化組 (DMRG) 張量網絡算法的基元。有關更多信息,請參閱 cuQuantum 25.06 版本說明。
為量子處理器設計工作流程解鎖 AI
cuDensityMat 提供新的 API,有助于計算量子態演變的梯度。量子哈密頓動力學框架和求解器的開發者可以使用這些新的 API 針對可優化的哈密頓參數高效地反向傳播量子動力學模擬,從而為合理的量子處理器單元 (QPU) 設計開辟了一條高效的途徑。這一點至關重要,因為它使 QPU 構建者能夠在校準、控制、門和量子位設計方面訓練大型 AI 模型,從而縮短到有用的量子處理器的時間。

圖 1 的所有模擬均在一個 NVIDIA DGX B200 GPU 上運行。請注意,觀察到的加速源于對 Hamiltonian 結構的自動化利用以及對高效后端 CUDA 庫的依賴。
設計基于 Fluxonium 量子位的 QPU 的研究人員需要計算通過 Fluxonium 量子位系統模擬計算出的某些目標成本函數的梯度,以優化其 QPU 布局和/ 或驅動脈沖。我們首先考慮了一個簡化模型,一個具有 32 個電平的量子位和一個具有 255 個電平的諧振器,每個電平都有局部耗散器,并且諧振器上有一個驅動器。我們計算了運算符對輸入量子態的操作所獲得的輸出量子態與某個虛擬目標的重疊梯度。該模型是實際 fluxonium 量子比特量子動力學優化場景的主要構建模塊。
圖 1 顯示了通過在 NVIDIA B200 GPU 上執行的新 cuDensityMat API 觀察到的前饋運算符操作及其反向傳播的加速情況。觀察到的速度比同樣在同一 GPU 上執行的基于 GEMM 的 JAX 實現參考快 16-26 倍,這對于為依賴自動微分的量子位設計和優化工作負載部署 AI 模型的研究人員來說非常鼓舞人心。
NVIDIA Blackwell 內核優化
cuStateVec 進一步引入了自定義 GPU 內核,可在最新的 NVIDIA GPU 架構上優化更多運算,確保性能比 NVIDIA Hopper 系統提升約 2-3 倍。

通過這些改進,研究人員可以從先進的 NVIDIA 硬件中獲得更好的性能,并為包括批處理、期望值計算和折疊運算符在內的運算提供更高的性能。這些持續更新使量子計算開發者能夠使用先進的 AI 超級計算硬件。
使用 DMRG 基元加速和擴展量子模擬
隨著 cuTensorNet 的最新版本發布,我們推出了首個矩陣產品狀態 — — 密度矩陣重整組 (MPS-DMRG) 基元,使開發者和研究人員能夠在量子計算模擬的背景下解決 DMRG 問題。通過提供用于迭代優化 MPS 近似于量子電路的保真度的基元,cuTensorNet 使量子計算機研究人員能夠輕松將 GPU 加速用于 DMRG。這些基元還可用于通過 MPS 時間依賴性變分原理 (MPS-TDVP) 算法執行量子動力學模擬。
此基元是 cuQuantum 計劃在未來版本中支持的許多新功能的基礎。其中包括更快速、更大規模的 MPS 量子電路模擬和適用于更大規模 QPU 設計的近似量子動力學模擬。量子算法開發者將能夠使用大規模模擬在當前和近期設備中設計算法。QPU 構建器將能夠對更遠距離的交互和更大的 Hilbert 空間進行建模,而無需使用精度較低的軌跡方法。兩者都縮短了有用量子計算的時間軸。
cuQuantum 入門
通過 pip install cuquantum-cu12
下載 cuQuantum,開始試驗這些功能,或者將它們集成到您的框架、模擬器或求解器中。有關其他入門方法,請查看文檔頁面。
請在 GitHub 上提出問題、請求或問題。詳細了解 NVIDIA 量子計算。
?