SERVIDOR DE INFERÃªNCIA NVIDIA TRITON

O Servidor de InferÃªncia NVIDIA Triton? Ã© um software de servi?o de inferÃªncia de cÃ³digo aberto que ajuda a padronizar a implanta??o e a execu??o do modelo e oferece AI rÃ¡pida e escalÃ¡vel na produ??o.

COME?AR

O que Ã© o NVIDIA Triton?

O Servidor de InferÃªncia Triton simplifica a inferÃªncia da AI, permitindo que as equipes implantem, executem e dimensionem modelos de AI treinados a partir de qualquer framework em qualquer infraestrutura baseada em GPU ou CPU. Ele oferece aos pesquisadores de AI e cientistas de dados a liberdade de escolher o framework certo para seus projetos sem afetar a implanta??o da produ??o. Ele tambÃ©m ajuda os desenvolvedores a fornecer inferÃªncia de alto desempenho no cloud, no local, no edge e em dispositivos incorporados.

Compatibilidade com VÃ¡rios Frameworks

El Servidor de Inferencia Triton es compatible con todos los principales frameworks como TensorFlow, NVIDIA? TensorRT?, PyTorch, MXNet, Python, ONNX, RAPIDS FIL (para XGBoost, scikit-learn, etc.), OpenVINO, C++ personalizado y mÃ¡s.

InferÃªncia de Alto Desempenho

O Triton suporta todas as inferÃªncias baseadas em CPU NVIDIA, x86 e ARM?. Ele oferece recursos como lotes dinamicos, execu??o simultanea, configura??o de modelo ideal, conjunto de modelos e entradas de streaming para maximizar o rendimento e a utiliza??o.

Projetado para DevOps e MLOps

O Triton se integra ao Kubernetes para orquestra??o e dimensionamento, exporta mÃ©tricas do Prometheus para monitoramento, oferece suporte a atualiza??es de modelos ao vivo e pode ser usado em todas as principais plataformas de AI e Kubernetes de cloud pÃºblico. TambÃ©m estÃ¡ integrado em muitas solu??es de software MLOPS.

Acelere Sua Jornada de AI com o NVIDIA LaunchPad

Experimente o Servidor de InferÃªncia Triton e outros softwares de AI da NVIDIA por meio de laboratÃ³rios gratuitos selecionados em infraestrutura hospedada.

COME?AR

Integra??es de Ecossistemas com o NVIDIA Triton

A AI estÃ¡ impulsionando a inova??o em empresas de todos os tamanhos e escalas. Uma solu??o de software de cÃ³digo aberto, o Triton Ã© a melhor escolha para inferÃªncia de IA e implanta??o de modelos. Triton Ã© compatÃvel com Alibaba Cloud, Amazon Elastic Kubernetes Service (EKS), Amazon Elastic Container Service (ECS), Amazon SageMaker, Google Kubernetes Engine (GKE), Google Vertex AI, HPE Ezmeral, Microsoft Azure Kubernetes Service (AKS) e Azure Machine Learning. Descubra por que as empresas usam o Triton.

Recursos de InferÃªncia de AI da NVIDIA

Simplifique a Implanta??o de AI em Escala

Simplifique a implanta??o de modelos de AI em escala na produ??o. Saiba como o Triton enfrenta os desafios de implanta??o de modelos de AI e revise as etapas para come?ar.

FA?A DOWNLOAD DA VIS?O GERAL

Assista a Sess?es On Demand

Confira as Ãºltimas sess?es on demand do Servidor de InferÃªncia Triton no NVIDIA GTC.

ASSISTA AGORA

Implante Modelos de Deep Learning de AI

Receba as Ãºltimas notÃcias e atualiza??es e saiba mais sobre as principais vantagens no Blog TÃ©cnico da NVIDIA.

LEIA OS BLOGS

Leia a Documenta??o do Produto

Veja o que hÃ¡ de novo e saiba mais sobre os recursos mais recentes nas notas de vers?o do Triton.

LEIA NO GITHUB

AI RÃ¡pida e EscalÃ¡vel em Todas as Aplica??es

O Servidor de InferÃªncia NVIDIA Triton oferece alta taxa de transferÃªncia de inferÃªncia:

O Triton executa vÃ¡rios modelos da mesma ou de diferentes frameworks simultaneamente em uma Ãºnica GPU ou CPU. Em um servidor multi-GPU, o Triton cria automaticamente uma instancia de cada modelo em cada GPU para aumentar a utiliza??o.

Ele tambÃ©m otimiza o servi?o para inferÃªncia em tempo real sob restri??es estritas de latÃªncia, suporta inferÃªncia em lote para maximizar a utiliza??o de GPU e CPU e inferÃªncia de streaming com suporte integrado para entrada de streaming de Ã¡udio e vÃdeo. O Triton oferece suporte ao conjunto de modelos para casos de uso que exigem vÃ¡rios modelos para realizar inferÃªncia de ponta a ponta, como AI conversacional.

Os modelos podem ser atualizados ao vivo na produ??o sem reiniciar o Triton ou a aplica??o. O Triton permite inferÃªncia multi-GPU e multi-nÃ³ em modelos muito grandes que n?o cabem em uma Ãºnica memÃ³ria de GPU.

NVIDIA Triton Inference Server delivers high scalable inference.

O Servidor de InferÃªncia NVIDIA Triton oferece inferÃªncia altamente escalÃ¡vel:

TambÃ©m disponÃvel como um contÃªiner do Docker, o Triton se integra ao Kubernetes para orquestra??o, mÃ©tricas e dimensionamento automÃ¡tico. O Triton tambÃ©m se integra aos pipelines Kubeflow e Kubeflow para um workflow de AI de ponta a ponta e exporta mÃ©tricas do Prometheus para monitorar a utiliza??o da GPU, latÃªncia, uso de memÃ³ria e taxa de transferÃªncia de inferÃªncia. Ele suporta a interface HTTP/gRPC padr?o para conectar-se a outras aplica??es, como balanceadores de carga, e pode ser facilmente dimensionado para qualquer nÃºmero de servidores para lidar com cargas de inferÃªncia crescentes para qualquer modelo.

O Triton pode servir dezenas ou centenas de modelos por meio de uma API de controle de modelos. Os modelos podem ser carregados e descarregados dentro e fora do servidor de inferÃªncia com base nas altera??es para caber na memÃ³ria da GPU ou CPU. O suporte a um cluster heterogÃªneo com GPUs e CPUs ajuda a padronizar a inferÃªncia entre plataformas e dimensiona dinamicamente para qualquer CPU ou GPU para lidar com cargas de pico.

Principais CaracterÃsticas do Triton

Backend da Forest Inference Library (FIL) do Triton

O novo back-end da Forest Inference Library (FIL) fornece suporte para inferÃªncia de alto desempenho de modelos baseados em Ã¡rvore com explicabilidade (valores Shapley) em CPUs e GPUs. Ele suporta modelos de XGBoost, LightGBM, scikit-learn RandomForest, RAPIDS cuML RandomForest e outros no formato Treelite.

SAIBA MAIS

Servi?o de Gerenciamento Triton

O Servi?o de Gerenciamento Triton (TMS) aborda o desafio de dimensionar com eficiÃªncia as instancias do Triton com um grande nÃºmero de modelos. O TMS Ã© um servi?o que ajuda quando hÃ¡ mais modelos do que podem caber em uma Ãºnica GPU e quando muitas instancias do Triton s?o necessÃ¡rias em servidores para lidar com solicita??es de inferÃªncia de diferentes aplica??es.

Em Breve

Analisador de Modelo Triton

O Analisador de Modelo Triton Ã© uma ferramenta para avaliar automaticamente as configura??es de implanta??o do Triton, como tamanho do lote, precis?o e instancias de execu??o simultanea no processador de destino. Ele ajuda a selecionar a configura??o ideal para atender Ã s restri??es de qualidade de servi?o (QoS) da aplica??o: latÃªncia, taxa de transferÃªncia e requisitos de memÃ³ria. Reduz o tempo necessÃ¡rio para encontrar a configura??o ideal de semanas para horas.