AI 模型的快速演進推動了對更高效、更可擴展的推理解決方案的需求。在企業組織努力利用 AI 的強大功能時,他們在部署、管理和擴展 AI 推理工作負載方面面臨挑戰。 NVIDIA NIM 和 Google Kubernetes Engine (GKE) 共同提供了應對這些挑戰的強大解決方案。NVIDIA 與 Google Cloud 合作,在 GKE 上引入 NVIDIA NIM,以加速 AI 推理,通過 Google Cloud Marketplace 提供的簡化部署,在大規模提供安全、可靠和高性能的推理。
NVIDIA NIM 是 NVIDIA AI Enterprise 軟件平臺的一部分,現已在 Google Cloud Marketplace 上提供。它是一套易于使用的微服務,旨在安全、可靠地部署高性能 AI 模型推理。NIM 現已與 GKE 集成,GKE 是一種托管式 Kubernetes 服務,用于使用 Google Cloud 基礎架構大規模部署和運行容器化應用。
本文介紹了 GKE 上的 NIM 如何簡化 AI 推理工作負載的部署和管理。這個功能強大且靈活的 AI 模型推理解決方案利用了 GKE 的強大功能和 Google Cloud 上的 NVIDIA 全棧 AI 平臺。
輕松部署性能優化的推理
NVIDIA NIM 和 GKE 的集成為希望加速 AI 推理的組織提供了幾個關鍵優勢:
- 簡化部署 :借助 Google Cloud Marketplace,NVIDIA NIM 在 GKE 上的一鍵式部署功能可以輕松設置和管理 AI 推理工作負載,從而減少部署所需的時間和精力。
- 靈活的模型支持 :支持廣泛的 AI 模型,包括開源模型、NVIDIA AI 基礎模型和自定義模型,確保組織可以為其特定應用選擇合適的模型。
- 高效性能 :該平臺基于 NVIDIA Triton Inference Server 、 NVIDIA TensorRT 和 PyTorch 等行業標準技術構建,可提供高性能 AI 推理,使組織能夠快速高效地處理大量數據。
- 加速計算 :訪問 Google Cloud 上的 NVIDIA GPU 實例(包括 NVIDIA H100、A100 和 L4),可提供一系列加速計算選項,以涵蓋各種工作負載,滿足各種成本和性能需求。
- 無縫集成 :兼容標準 API 和最少的編碼需求,使現有 AI 應用程序能夠輕松集成,從而減少對大量返工或重新開發的需求。
- 企業級功能 :安全性、可靠性和可擴展性功能確保 AI 推理工作負載受到保護,并且可以在不影響性能的情況下處理不同級別的需求。
- 簡化采購 :Google Cloud Marketplace 的可用性簡化了獲取和部署流程,使組織能夠根據需要快速訪問和部署該平臺。
開始在 GKE 上使用 NVIDIA NIM?
要開始在 GKE 上利用 NIM,請按照本節詳述的步驟操作。
第 1 步 :在 Google Cloud 控制臺中訪問 NVIDIA NIM on GKE 并啟動部署流程。單擊“Launch”(啟動)按鈕,稍后系統會顯示“Deployment details”(部署詳情)頁面。

第 2 步 :配置平臺以滿足特定的 AI 推理需求,包括選擇所需的 AI 模型和設置部署參數。提供部署名稱等詳細信息,您可以使用現有服務帳戶或創建新帳戶。

接下來,從下拉菜單中選擇與實例類型對應的特定區域中的適當 GPU。

第 3 步 :從下拉菜單中選擇您的 NIM。

第 4 步: 閱讀并接受 EULA,然后單擊“Deploy”。部署大約需要 15-20 分鐘,具體取決于您選擇的 NIM 和集群參數。


第 5 步: 獲取已創建的 GKE 集群的憑據。導航至 Google Cloud 控制臺 以查找新集群。然后選擇“選項”菜單 →“連接”以獲取其憑據。
gcloud container clusters get-credentials $CLUSTER --region $REGION --project $PROJECT |
集群運行后,通過設置 NIM 容器的端口轉發來運行推理。
kubectl -n nim port-forward service/my-nim-nim-llm 8000:8000 & |
接下來,使用以下 curl 命令針對 NIM 端點運行推理請求:
curl -X GET 'http://localhost:8000/v1/health/ready' curl -X GET 'http://localhost:8000/v1/models' curl -X 'POST' \ -H 'accept: application/json' \ -H 'Content-Type: application/json' \ -d '{ "messages": [ { "content": "You are a polite and respectful chatbot helping people plan a vacation.", "role": "system" }, { "content": "What should I do for a 4 day vacation in Spain?", "role": "user" } ], "model": "meta/llama-3.1-8b-instruct", "max_tokens": 4096, "top_p": 1, "n": 1, "stream": true, "stop": "\n", "frequency_penalty": 0.0 }' |
如需對模型重新排序,請使用以下調用:
# rerank-qa curl -X 'POST' \ -H 'accept: application/json' \ -H 'Content-Type: application/json' \ -d '{ "query": {"text": "which way should i go?"}, "model": "nvidia/nv-rerankqa-mistral-4b-v3", "passages": [ { "text": "two roads diverged in a yellow wood, and sorry i could not travel both and be one traveler, long i stood and looked down one as far as i could to where it bent in the undergrowth;" }, { "text": "then took the other, as just as fair, and having perhaps the better claim because it was grassy and wanted wear, though as for that the passing there had worn them really about the same," }, { "text": "and both that morning equally lay in leaves no step had trodden black. oh, i marked the first for another day! yet knowing how way leads on to way i doubted if i should ever come back." } ] }' |
對于嵌入模型,請使用以下調用:
# embed curl -X "POST" \ -H 'accept: application/json' \ -H 'Content-Type: application/json' \ -d '{ "input": ["Hello world"], "model": "nvidia/nv-embedqa-e5-v5", "input_type": "query" }' |
確保您擁有正確的 URL 和模型參數下提到的模型。
您還可以使用 NVIDIA GenAI-Perf 工具進行負載測試,并獲取性能指標,例如吞吐量和延遲。
將現有 AI 應用和模型與 NVIDIA NIM 在 GKE 上集成,利用標準 API 和兼容性功能確保無縫操作。根據需要擴展 AI 推理工作負載,使用平臺的可擴展性功能處理不同級別的需求并優化資源利用率。
總結?
GKE 上的 NVIDIA NIM 是加速 AI 推理的強大解決方案,具有易用性、廣泛的模型支持、穩健的基礎、無縫兼容性以及企業級安全性、可靠性和可擴展性。企業現在可以增強其 AI 能力、簡化部署流程,并實現大規模的高性能 AI 推理。 GKE 上的 NVIDIA NIM 提供了推動創新和提供有影響力的 AI 解決方案所需的工具和基礎設施。在 Google Cloud Marketplace 上查找 NVIDIA NIM。
?
?