由大語言模型驅動的 AI 智能體正在改變企業工作流,但高昂的推理成本和延遲可能會限制其可擴展性和用戶體驗。為解決這一問題,NVIDIA 最近發布了用于構建數據飛輪的 NVIDIA AI Blueprint。這是一個企業就緒型工作流,通過自動實驗來幫助優化 AI 智能體,以找到高效的模型,在降低推理成本的同時,提高延遲和有效性。
該藍圖的核心是一個自我改進循環,該循環使用 NVIDIA NeMo 和 NIM 微服務來蒸餾,使用真實生產數據微調和評估較小的模型。
Data Flywheel Blueprint 旨在與您現有的 AI 基礎設施和平臺無縫集成,并支持多云、本地和邊緣環境。
數據飛輪 Blueprint 的實施步驟
此實戰演示展示了如何使用 Data Flywheel Blueprint 來優化模型,以便為虛擬客戶服務智能體執行功能和工具調用。它解釋了數據飛輪如何幫助用更小的 Llama-3.2-1b 模型取代大型 Llama – 3.3-70b 模型,同時不影響準確性,同時將推理成本降低 98% 以上。
1. 初始設置
- 使用 NVIDIA Launchable 快速啟動所需的 GPU 計算
- 為模型自定義和評估循環部署 NeMo 微服務
- 使用 NIM 微服務通過 API 為模型提供服務
- 克隆數據飛輪 Blueprint GitHub 存儲庫
2. 提取和整理日志
- 以 OpenAI 兼容的格式收集生產智能體交互
- Elasticsearch 中的存儲日志
- 設置內置的飛輪編排器,對特定任務的數據集進行標記、重復數據刪除和篩選,并運行連續實驗
3. 試用現有及更新的模型
- 通過零樣本、上下文學習和微調設置運行 EVAL
- 使用生產輸出和 LoRA 微調較小的模型,無需手動標記
- 通過與 MLflow 等工具集成來衡量準確性和性能
- 選擇符合或優于原始基準的模型
4. 持續部署和改進
- 查看生成的評估報告
- 在生產環境中部署已出現的高效模型
- 提取新的生產數據、重新訓練和重復飛輪周期,以便通過自動化實驗不斷改進
觀看此新操作視頻或從 NVIDIA API Catalog 下載,即可開始使用 NVIDIA AI Blueprint 構建數據飛輪。