AI Agent – NVIDIA 技術ブログ http://www.open-lab.net/ja-jp/blog Fri, 20 Dec 2024 05:17:29 +0000 ja hourly 1 2D と 3D のデジタル ヒューマン アバターによる AI エージェント インターフェイス オプションの拡張 http://www.open-lab.net/ja-jp/blog/expanding-ai-agent-interface-options-with-2d-and-3d-digital-human-avatars/ Wed, 13 Nov 2024 05:15:28 +0000 http://www.open-lab.net/ja-jp/blog/?p=3036 Reading Time: 2 minutes ユーザーが生成 AI アプリケーションを使ってやり取りする際には、テキスト、音聲、デジタル アバターなど複數のコミュニケーション オプションを利用することができます。 従來のチャットボットやコパイロット アプリケーション … Continued]]> Reading Time: 2 minutes ユーザーが生成 AI アプリケーションを使ってやり取りする際には、テキスト、音聲、デジタル アバターなど複數のコミュニケーション オプションを利用することができます。 従來のチャットボットやコパイロット アプリケーションでは、ユーザーが問い合わせを入力し、テキストベースの応答を受信するテキスト インターフェイスを使用しています。ハンズフリーのコミュニケーションでは、自動音聲認識 (ASR: Automatic Speech Recognition) や音聲合成 (TTS: Text-To-Speech) などの音聲 AI 技術により、電話を使用したカスタマー サービスなどのシナリオに最適な口頭によるやり取りが容易になります。さらに、デジタル アバターに音聲機能を持たせることで、ユーザーがアプリケーションを視覚的に使用できるため、

Source

]]>
3036
NVIDIA NIM によるマルチモーダル ビジュアル AI エージェントの構築 http://www.open-lab.net/ja-jp/blog/build-multimodal-visual-ai-agents-powered-by-nvidia-nim/ Thu, 31 Oct 2024 08:46:59 +0000 http://www.open-lab.net/ja-jp/blog/?p=2986 Reading Time: 3 minutes 畫像から PDF、ストリーミング動畫に至るまで、ビジュアル データが指數関數的に急増しているため、手動によるレビューと分析は事実上不可能になっています。企業は、このデータを大規模に実用的な洞察に変えるのに苦労しており、そ … Continued]]> Reading Time: 3 minutes 畫像から PDF、ストリーミング動畫に至るまで、ビジュアル データが指數関數的に急増しているため、手動によるレビューと分析は事実上不可能になっています。企業は、このデータを大規模に実用的な洞察に変えるのに苦労しており、その結果、機會逸失やリスクの増大につながっています。 この課題を解決するために、畫像や動畫の視覚認識とテキストベースの推論を組み合わせた強力なツールとして、ビジョン言語モデル (VLM) が登場しています。テキストのみを処理する従來の大規模言語モデル (LLM) とは異なり、VLM は複雑なマルチモーダル データを理解し、それに基づいて行動するビジュアル AI エージェントを構築できるため、リアルタイムの意思決定と自動化が可能になります。 リモート カメラの映像を解析して山火事の初期兆候を検出したり、

Source

]]>
2986
人人超碰97caoporen国产