Infrastructure – NVIDIA 技術博客
http://www.open-lab.net/zh-cn/blog
閱讀開發者創建的最新技術信息、頭條新聞 和內容。
Thu, 03 Apr 2025 08:20:14 +0000
zh-CN
hourly
1
196178272 -
Volcano 調度程序中防止 GPU 碎片的實用技巧
http://www.open-lab.net/zh-cn/blog/practical-tips-for-preventing-gpu-fragmentation-for-volcano-scheduler/
Mon, 31 Mar 2025 08:16:55 +0000
http://www.open-lab.net/zh-cn/blog/?p=13440
Continued]]>
在 NVIDIA,我們以精準和創新解決復雜的基礎設施挑戰為豪。當 Volcano 在其 NVIDIA DGX 云調配的 Kubernetes 集群中面臨 GPU 利用率不足時,我們介入提供了一個不僅達到而且超過預期的解決方案。 通過將先進的調度技術與對分布式工作負載的深入理解相結合,我們實現了約 90% 的 GPU 占用率,遠高于 80% 的合同目標。下面詳細介紹了問題、我們的方法和結果。 DGX 云 Kubernetes 集群由數千個 GPU 組成,每個 GPU 均配備多個 NVIDIA L40S GPU。該集群支持多種工作負載: 盡管有可靠的硬件,但該集群仍存在 GPU 碎片化問題,導致節點被部分占用,無法用于大型作業。這種效率低下的情況又因 Volcano 調度程序 它使用了一個分組調度算法。 如果不進行干預,我們可能會違反合同協議,維持至少 80%
Source
]]>
13440
-
聚焦:借助 VDI 加速 AI
http://www.open-lab.net/zh-cn/blog/spotlight-accelerating-into-ai-with-vdi/
Tue, 12 Nov 2024 08:01:01 +0000
http://www.open-lab.net/zh-cn/blog/?p=12058
Continued]]>
AI 初創公司的關鍵在于了解現有工具和資源的潛力。從小型項目開始您的 AI 之旅,采用“爬行、行走、運行”的方法,在擴展到生產之前先學習早期成功經驗。 根據德勤的一項調查 ,83% 的受訪者表示他們的公司已經從人工智能項目中獲得了中等(53%)或顯著(30%)的經濟效益。要取得成功,選擇一個既靈活又安全的預生產環境至關重要,以便跟上迅速發展的技術。 虛擬桌面基礎架構(Virtual Desktop Infrastructure,VDI)使 IT 團隊能夠為遠程工作者提供桌面和應用程序虛擬化,使他們能夠開展日常業務運營。雖然 VDI 已經誕生了十多年,但 GPU 技術的進步已發展為支持實時渲染和虛擬現實等尖端應用程序的能力。 GPU 架構 和 虛擬 GPU 軟件 方面的突破使 VDI 成為公司啟動 AI 項目的理想切入點,為開發和部署提供了一系列引人注目的優勢組合。
Source
]]>
12058
-
使用 NetDevOps 實現網絡現代化
http://www.open-lab.net/zh-cn/blog/modernize-your-network-using-netdevops/
Tue, 21 Jun 2022 03:47:00 +0000
http://www.open-lab.net/zh-cn/blog/?p=4360
Continued]]>
在本系列的第 2 部分中,我們將重點介紹優化和現代化數據中心網絡運營的解決方案。在第一期中, 優化數據中心網絡 ,我們研究了更新您的網絡基礎架構和協議。 NetDevOps 是一種意識形態,過去 5 年來一直滲透到散居國外的 IT 基礎設施中。作為一種理論,它可以提供許多領域來優化基礎設施運營。 我們將討論可應用于您的操作工作流的 NetDevOps 的一些應用程序。 其中包括: IaC 背后的原則已用于軟件開發中,開發人員可以并行地為同一軟件項目貢獻代碼。但他們也創建了一個集中的存儲庫,其中的代碼項目(包括服務器、 NIC 、路由器和交換機的網絡配置)可以駐留并作為唯一的真實來源。 配置管理的分散性使實施標準化從根本上效率低下。這也使得確定正確的配置或跟蹤更改變得困難。 將 IaC 與 Git 等源代碼管理軟件結合使用可以幫助解決問題,
Source
]]>
4360
-
NVIDIA GTC :優化性能和保護網絡基礎設施的頂級課程
http://www.open-lab.net/zh-cn/blog/nvidia-gtc-top-sessions-for-optimizing-performance-and-securing-network-infrastructure/
Fri, 15 Oct 2021 04:40:00 +0000
http://www.open-lab.net/zh-cn/blog/?p=1967
Continued]]>
標記 2021 年 11 月 8 日至 11 日的日歷,并準備好利用您在春季 GTC 會議上學到的知識。從分組討論、小組討論和面向數據中心基礎架構主題的最新技術內容中,我 NSight 獲益良多,我們想我們應該指出一些頂級會議,以確保您不會錯過它們。 數據處理單元( DPU s )提供了加速和保護現代工作負載的重要功能,但是,在數據中心部署這些功能強大的新組件的時間、方式和原因上,許多首席信息官都感到困惑。本課程詳細介紹了 DPU 解決的關鍵問題,并揭示了它們如何實際降低復雜性;同時提高現代分布式工作負載的靈活性、安全性、性能和可伸縮性。該材料涵蓋 DPU 的主要功能,將告知首席信息官如何應對遠程工作、虛擬化、集裝箱化、數字轉換和軟件定義的數據中心所帶來的風險和復雜性。 DPU 卸載、加速和隔離關鍵網絡、存儲、,和安全基礎設施,
Source
]]>
1967
人人超碰97caoporen国产