Dong Ahn

Dong Ahn 是 NVIDIA AI Data-Infra 優化團隊的杰出工程師,負責為模型構建器構建端到端可靠性系統。在加入 NVIDIA 之前,Dong 曾在利弗莫爾計算的開發環境團隊 (DEG) 工作了 20 年。Dong 曾參與過多個代碼開發工具以及新一代資源管理和調度軟件框架項目,他們的共同目標是為大型計算系統提供功能強大且可擴展的軟件生態系統。

Posts by Dong Ahn

AI 平臺/部署

在 NVIDIA DGX 云上確保模型訓練可靠性

在大型 GPU 集群上訓練 AI 模型給模型構建者帶來了重大挑戰。隨著作業規模的增加,人工干預變得不切實際, 1 MIN READ