Florent Duguet – NVIDIA 技術博客 http://www.open-lab.net/zh-cn/blog 閱讀開發者創建的最新技術信息、頭條新聞 和內容。 Tue, 17 Jun 2025 07:56:01 +0000 zh-CN hourly 1 196178272 使用 NVIDIA Nsight Profiler 簡化 EDF 流體動力學模擬的 GPU 移植 http://www.open-lab.net/zh-cn/blog/streamlining-gpu-porting-for-edfs-fluid-dynamics-simulations-with-nvidia-nsight-profilers/ Thu, 12 Jun 2025 07:52:36 +0000 http://www.open-lab.net/zh-cn/blog/?p=14254 Continued]]> 將現有 CPU 應用程序移植到 NVIDIA GPU 可以釋放性能提升,使用戶能夠以更大的規模和更快的速度解決問題。雖然修改代碼以實現 NVIDIA GPU 加速需要在初始階段投入時間和精力,但由此帶來的吞吐量和效率提升通常遠遠超過成本。 這樣的任務可能看起來令人生畏,并引起了人們的擔憂,因為他們會浪費時間,最終產生無法提供任何好處的半移植 CPU 代碼到 GPU 代碼。但是,將 CPU 代碼移植到 GPU 代碼可以逐步完成,從而實現即時加速并更大限度地降低風險。 在整個移植過程中,如果不需要先進的內核優化技術,將單個任務從 CPU 移植到 GPU 可提供顯著的加速和下游性能優勢,則經常會出現這種情況。 無論您是初學者還是資深 NVIDIA CUDA 開發者,NVIDIA Nsight 工具套件都支持整個移植流程。只需輕松設置 NVIDIA Nsight Systems,

Source

]]>
14254
針對 NVIDIA GPU 的低延遲交易和快速回測的深度神經網絡基準 http://www.open-lab.net/zh-cn/blog/benchmarking-deep-neural-networks-for-low-latency-trading-and-rapid-backtesting-on-nvidia-gpus/ Thu, 02 Feb 2023 03:02:44 +0000 http://www.open-lab.net/zh-cn/blog/?p=6217 Continued]]> 降低對新市場事件的響應時間是算法交易的一個驅動力。對延遲敏感的交易公司通過在其系統中部署諸如現場可編程門陣列( FPGA )和專用集成電路( ASIC )等低級別硬件設備來跟上金融電子市場不斷增長的步伐。 然而,隨著市場變得越來越高效,交易者需要依靠更強大的模型,如深度神經網絡( DNN )來提高盈利能力。由于在低級別硬件設備上實現此類復雜模型需要大量投資,通用 GPU 為 FPGA 和 ASIC 提供了一種可行、經濟高效的替代方案。 NVIDIA 在 STAC 審計的 STAC-ML 推理基準 中證明,1 NVIDIA A100 Tensor Core GPU 可以以低延遲一致地運行 LSTM 模型推斷。這表明, GPU 可以替代或補充現代交易環境中通用性較差的低級硬件設備。 具有長短期記憶的深度神經網絡( LSTM )是時間序列預測的成熟工具。它們也適用于現代金融。

Source

]]>
6217
人人超碰97caoporen国产