NetQ – NVIDIA 技術博客
http://www.open-lab.net/zh-cn/blog
閱讀開發者創建的最新技術信息、頭條新聞 和內容。
Tue, 18 Feb 2025 06:14:45 +0000
zh-CN
hourly
1
196178272 -
NVIDIA Spectrum-X 網絡平臺和合作伙伴提升 AI 存儲性能達48%
http://www.open-lab.net/zh-cn/blog/accelerating-ai-storage-by-up-to-48-with-nvidia-spectrum-x-networking-platform-and-partners/
Tue, 04 Feb 2025 06:56:25 +0000
http://www.open-lab.net/zh-cn/blog/?p=12761
Continued]]>
AI 工廠依靠的不僅僅是計算網。當然,連接 GPU 的東西向網絡對于 AI 應用的性能至關重要,而連接高速存儲陣列的存儲網也不容忽視。存儲性能在運行 AI 業務過程中的多個階段中發揮著關鍵作用, 包括訓練過程中的Checkpoint操作、 推理過程中的檢索增強生成 (RAG) 等。 為了滿足這些需求,NVIDIA 和存儲生態合作伙伴正在將 NVIDIA Spectrum-X 網絡平臺 擴展到數據存儲網,從而帶來更高的性能和更快的實現AI的時間。由于 Spectrum-X 動態路由技術能夠緩解網絡中的流量沖突并增加有效帶寬,從而使存儲性能遠高于 RoCE v2,RoCE v2是大多數數據中心用于 AI 計算網和存儲網的以太網網絡協議。 Spectrum-X 將讀取帶寬加速了高達 48%,寫入帶寬加速了高達 41%。帶寬的增加可以更快地完成 AI 工作流中與存儲相關的操作,
Source
]]>
12761
-
使用 NVIDIA WJH 更快地診斷網絡問題
http://www.open-lab.net/zh-cn/blog/diagnosing-network-issues-faster-with-wjh/
Thu, 04 May 2023 03:49:59 +0000
http://www.open-lab.net/zh-cn/blog/?p=6936
Continued]]>
人工智能已經無縫地融入了我們的生活,并以幾年前我們甚至無法想象的方式改變了我們。在過去,對人工智能的感知是一種未來主義和復雜的東西。只有大公司在其擁有 HPC 技術的超級計算機上使用人工智能來預測天氣,并在醫療保健和科學領域取得突破性發現。 如今,由于 GPU 、 CPU 、高速存儲和人工智能優化的軟件創新,每個人都可以訪問人工智能。您甚至可以將人工智能作為服務( SaaS )或基礎設施( IaaS )部署在云中。 我們見證了人工智能在每個行業的廣泛應用:醫療保健和金融、自動駕駛汽車、廣告推薦,以及最近創建和編輯視頻、圖像和音樂等內容的生成人工智能。隨著最近推出的 ChatGPT-4 ,它使用大型語言模型( LLM )來理解、響應,甚至像人類一樣生成文本,思考我們可以實現的無限潛力是令人興奮的。 充分利用您的人工智能需要的不僅僅是昂貴的高端 GPU 和存儲系統。
Source
]]>
6936
-
找出應用程序和網絡的交叉點
http://www.open-lab.net/zh-cn/blog/finding-out-where-your-application-and-network-intersect/
Wed, 28 Sep 2022 07:05:00 +0000
http://www.open-lab.net/zh-cn/blog/?p=5337
Continued]]>
現代數據中心可以運行數千種服務和應用程序。當出現問題時,作為網絡管理員,您默認是有罪的。你必須每天證明自己的清白,因為很容易指責網絡。這是一個不公平的世界。 很難將應用程序性能問題與網絡關聯起來。您可以從使用簡單的 ping 或 traceroute 檢查基本連接開始,檢查基于 SNMP 的監視工具、嗅探器,甚至讀取設備計數器以查找丟棄。與此同時,用戶遭受應用程序速度慢、性能差甚至不可用的困擾。 不幸的是,所有這些經典的網絡故障排除方法都很耗時,不能保證成功,因為有時使用它們幾乎不可能查明問題。 為了方便網絡故障排除, NVIDIA 開發了 NetQ – 一個可擴展的現代網絡操作工具集,可實時提供網絡可見性。 NetQ 團隊最近推出了獨特的 flow analysis 工具,以進一步增強可見性。流分析允許網絡管理員立即將服務流量流與結構中的路徑關聯起來,
Source
]]>
5337
-
使用最新版本的 NVIDIA NetQ 自動化網絡監控并減少停機時間
http://www.open-lab.net/zh-cn/blog/automate-network-monitoring-and-reduce-downtime-with-the-latest-release-of-nvidia-netq/
Wed, 01 Jun 2022 02:57:00 +0000
http://www.open-lab.net/zh-cn/blog/?p=4251
Continued]]>
NVIDIA NetQ 是一種高度可擴展的現代網絡操作工具,為 NVIDIA Spectrum Ethernet 平臺提供可操作的可見性。它將高級遙測技術與用戶界面相結合,使網絡工作流程更易于故障排除和自動化,同時減少維護和停機時間。 我們最近發布了 NetQ 4.2.0 ,其中包括: 有關新功能和增強功能的更多信息,請參閱 NetQ 4.2.0 用戶指南 。 通過 NetQ 4.2 ,我們簡化了通過接口傳遞網絡事件的方式。事件的嚴重性各不相同。一些事件是網絡警報,可能需要進一步調查,而其他事件是信息性通知,可能不需要干預。在此版本之前, NetQ 將報警和信息事件顯示為兩個單獨的卡。 NetQ 4.2 版本將兩個卡合并為一個卡,擴展后,該卡將顯示一個儀表板,以幫助您快速可視化所有網絡事件。 儀表板顯示事件的時間線,以及導致大多數事件的開關。
Source
]]>
4251
-
使用 NetQ 4.1.0 分析結構范圍內的網絡延遲
http://www.open-lab.net/zh-cn/blog/analyzing-fabric-wide-network-latency-with-netq-4-1-0/
Mon, 07 Feb 2022 07:00:00 +0000
http://www.open-lab.net/zh-cn/blog/?p=3001
Continued]]>
NetQ 4.1.0 最近發布,引入了結構范圍的網絡延遲和緩沖區占用分析,以及許多其他增強功能。有關所有新功能的更多信息,請參閱 NetQ 4.1.0 用戶指南 。 這篇文章包括以下特點: NetQ 首次通過使用實時應用程序流量來解決影響應用程序性能的網絡問題,提供了網絡范圍的結構延遲和緩沖區占用分析。 NetQ 使用 Cumulus Linux 對匹配 4 元組和 5 元組應用程序流的數據包進行采樣,分析并報告每個交換機的延遲(最大、最小、平均)以及流路徑上的緩沖區占用詳細信息。 NetQ 圖形用戶界面會報告所有可能的路徑、正在使用的路徑以及每個路徑的詳細信息(圖 1 )。在每個交換機上,都可以看到最小延遲、最大延遲和平均延遲。 WJH 是一種始終在線的全數據包檢查工具,用于以線路速率檢測網絡問題,包括數據包丟失、擁塞和延遲問題。通過與 WJH 合作,
Source
]]>
3001
-
使用 NetQ 排除網絡故障
http://www.open-lab.net/zh-cn/blog/troubleshooting-networks-with-netq/
Tue, 19 Oct 2021 07:37:00 +0000
http://www.open-lab.net/zh-cn/blog/?p=2060
Continued]]>
EVPN已成為現代數據中心架構的標準解決方案。對于終端用戶來說,受益于基于BGP的控制平面所具有的穩定性,EVPN提供了擴展其廣播域的靈活性。但這些增加的益處是以提高配置的復雜性為代價的。 當前所面對的不再是相對固定、簡單,可以通過維護人員直觀分析來發現錯誤的網絡配置。真正的生產性EVPN配置可能包括多個深度嵌套結構,而且隨網絡中的租戶數量成比例增長。 EVPN配置復雜性可以且必須通過適當的自動化解決方案予以解決,這可以減少人為出錯的可能性,而NVIDIA Cumulus Linux正是解決該問題的合適解決方案。但僅有自動化還不夠,錯誤仍然可以通過數據源引入系統,例如配置管理數據庫(CMDB)的人為錯誤。 這就是為什么對于任何具有合理復雜程度的基礎設施,用戶應該有辦法來采集各類日志、指標,并且調試、輸出、匯總、關聯和處理這些信息,從而嘗試推斷系統的內部狀態。
Source
]]>
2060
人人超碰97caoporen国产