AI Agent – NVIDIA 技術ブログ

2D と 3D のデジタルヒューマンアバターによる AI エージェントインターフェイスオプションの拡張

Wed, 13 Nov 2024 05:15:28 +0000

Reading Time: 2 minutes ユーザーが生成 AI アプリケーションを使ってやり取りする際には、テキスト、音聲、デジタルアバターなど複數のコミュニケーションオプションを利用することができます。従來のチャットボットやコパイロットアプリケーションでは、ユーザーが問い合わせを入力し、テキストベースの応答を受信するテキストインターフェイスを使用しています。ハンズフリーのコミュニケーションでは、自動音聲認識 (ASR: Automatic Speech Recognition) や音聲合成 (TTS: Text-To-Speech) などの音聲 AI 技術により、電話を使用したカスタマーサービスなどのシナリオに最適な口頭によるやり取りが容易になります。さらに、デジタルアバターに音聲機能を持たせることで、ユーザーがアプリケーションを視覚的に使用できるため、

Source

]]>

NVIDIA NIM によるマルチモーダルビジュアル AI エージェントの構築

Thu, 31 Oct 2024 08:46:59 +0000

Reading Time: 3 minutes 畫像から PDF、ストリーミング動畫に至るまで、ビジュアルデータが指數関數的に急増しているため、手動によるレビューと分析は事実上不可能になっています。企業は、このデータを大規模に実用的な洞察に変えるのに苦労しており、その結果、機會逸失やリスクの増大につながっています。この課題を解決するために、畫像や動畫の視覚認識とテキストベースの推論を組み合わせた強力なツールとして、ビジョン言語モデル (VLM) が登場しています。テキストのみを処理する従來の大規模言語モデル (LLM) とは異なり、VLM は複雑なマルチモーダルデータを理解し、それに基づいて行動するビジュアル AI エージェントを構築できるため、リアルタイムの意思決定と自動化が可能になります。リモートカメラの映像を解析して山火事の初期兆候を検出したり、

Source

]]>

AI Agent – NVIDIA 技術ブログ

2D と 3D のデジタル ヒューマン アバターによる AI エージェント インターフェイス オプションの拡張

NVIDIA NIM によるマルチモーダル ビジュアル AI エージェントの構築

2D と 3D のデジタルヒューマンアバターによる AI エージェントインターフェイスオプションの拡張

NVIDIA NIM によるマルチモーダルビジュアル AI エージェントの構築