• <xmp id="om0om">
  • <table id="om0om"><noscript id="om0om"></noscript></table>
  • 對話式人工智能

    借助 Gipi、 NVIDIA TensortRT-LLM 和 AI 基礎模型實現個性化學習

    超過 1.2 億人 正在積極學習新語言,而 5 億學習者 正在數字學習平臺(如 Duolingo)上學習。與此同時,全球很大一部分人口,包括 73% 的 Gen-Z 人群,你會體驗到不幸福,經常被社交媒體所影響。

    這突出了一種獨特的二分法:人們渴望個性化的學習體驗,但往往缺乏工具來瀏覽充斥著我們日常生活的平臺對個人健康的影響。

    AI 聊天機器人的興起:改變教育和互動方式?

    AI 聊天機器人越來越多地用于應對這些挑戰,提供獨特的個性、個性化的健康簽到、多語種功能以及即時反饋的指導功能。

    包括 Gipi 在內的一些模型旨在記住用戶對話、從用戶興趣中學習,并就重要主題進行對話,包括語言學習、口語練習、數學、科學和其他領域的個性化幫助。

    Gipi 還主動與用戶聯系,要求他們簽到,并從他們中斷的位置繼續對話。例如,當用戶提到即將到來的工作面試時,Gipi 鼓勵并在隨后簽入以獲取更新 (圖 1)。

    Screenshot where the user tells Gipi, 'I'm having an interview tomorrow at noon with the new job that I told you about.' Gipi responds, 'That's fantastic news, Emily! I'm so excited for you. How are you feeling about the interview? Is there anything specific you'd like to talk about or prepare for? I'm here to help in any way I can. Good luck, and remember, you've got this!' The conversation continues with Gipi checking in on the user, 'Hey Emily! How did your job interview go? Any news?' The user replies, 'I would love to share some good news!' indicating an ongoing supportive dialogue.
    圖 1.Gipi 應用中有關采訪的對話文本

    Gipi 的智能機制?

    Gipi 的智能架構涉及一系列技術和流程。本節介紹使 Gipi 能夠理解用戶并與用戶交互的關鍵組件:

    • 語音轉文本
    • 提示創建和管理
    • 讓 Gipi 更智能
    • 文本轉語音
    Diagram shows three main steps: 1) Speech-to-text conversion of the user's audio input, 2) processing by the LLM, and 3) text-to-speech generation of Gipi's response, with arrows indicating the flow between the user, Gipi, and the processes involved.
    圖 2、 Gipi 數據流

    語音轉文本?

    Gipi 的語音轉文本技術依賴于基于 Whisper 的自定義模型,并且模型大小已經過優化,可提高效率、降低延遲并提高 GPU 顯存占用率。

    最初,該模型使用標準的 Whisper 數據集,該數據集由容易出錯的公共視頻組成。為了緩解這些異常情況,Gipi 現在在更可靠的獨特數據集上訓練模型,從而實現更高效的語音到文本轉換,并捕獲用戶群的各種語言細微差別。

    超過一半的 Gipi 用戶積極使用語音聊天功能,這證明了早期對強大的語音轉文本功能的投資。

    提示創建和管理?

    Gipi 的成熟個性和定制響應依賴于用戶偏好和提示歷史記錄。我們的歷史記錄管理系統可個性化每次交互;Gipi 會記住每一位用戶。

    我們通過總結過去的交互并將其反饋到系統來改善 Gipi 的內存保留。更重要的是,我們不斷提取用戶的個人屬性,并將其集成到對話提示中。此過程使 Gipi 能夠記住和引用每個重要細節,確保個性化的持續對話。

    我們使用 LangChain 來簡化提示創建,這使我們能夠有效地組織和管理不同類型的提示,例如系統相關或對話式提示。這有助于我們保持提示清晰且適合其特定用途。LangChain 還有助于我們的提示適應不同的語言模型,使系統模型獨立且更加通用。此外,它還有助于管理短期記憶,使 Gipi 能夠回憶起之前在早期對話中討論過的內容。

    讓 Gipi 更智能?

    Gipi 的 LLM 是其智能的核心。雖然我們最初依賴于專有模型,但后來我們轉向 NVIDIA TensorRT 進行后端優化,以提高 LLM 推理速度。

    最初,我們使用 Llama 2?4 位模型在 NVIDIA A6000 Ada GPU 上,具有 4096 個輸入令牌和 512 個輸出令牌,我們看到每個請求的響應時間為 35 – 40 秒。但在集成 NVIDIA TensorRT-LLM 后,我們已將這一時間大幅縮短至 3 – 4 秒,實現了 10 – 12 倍的速度提升。此框架擅長快速高效地處理基于文本的語言模型。

    為了補充這些功能,我們正在努力將 Mistral 7B 型號集成到我們的系統中,它之所以被選中是因為它在總結文本、翻譯語言、編碼輔助、情感分析等任務中具有通用性,從而進一步增強了研究和教育工具。

    GIF shows a chat where the user asks what to buy for a barbecue with friends. Gipi suggests essentials such as burgers, hot dogs, condiments, refreshing drinks, sides like potato salad and coleslaw, and sweet treats for dessert.
    圖 3.關于使用 Gipi 的 BBQ 的對話

    我們為 Gipi 開發了一個長期記憶系統,使其能夠在每個會話中回顧過去的交互,以增強個性化。該系統與 Gipi 的定制響應機制集成,旨在提供更具吸引力的用戶體驗。

    文本轉語音?

    在文本轉語音領域,我們使用 NVIDIA NeMo 文本轉語音框架 以確保 Gipi 不僅理解您,而且還能以自然的聲音作出反應。

    最近,我們通過開發創建自定義語音的能力來擴展產品的功能。Gipi 可以根據用戶提交的語音音頻片段生成全新的語音,從而提供更大程度的個性化。

    最新模型使用 GPT2 主干和用于揚聲器調節的感知器模型,這提高了 Gipi 捕獲揚聲器特征并確保輸出一致的能力。我們還集成了用于音頻信號計算的 HifiGAN,顯著降低了推理延遲。

    總結?

    隨著 AI 融入到日常工作中,它提高了效率并擴大了我們對信息的獲取范圍。Gipi 使用先進的 AI 來支持語言學習和技能開發,提供幫助用戶增強能力的工具。

    我們設想先進的 AI 工具像智能手機一樣易于訪問和普及,為用戶提供智能的自適應支持。Gipi 旨在促進成長和學習,為您追求知識和自我完善提供支持。

    要了解 Gipi 如何增強您的互動和學習體驗,請從 Google Play 應用商店, Apple 應用商店 或訪問 Gipi 官方網站

    有關大型語言模型(LLM)在企業應用中的更多信息,請參閱 面向企業解決方案的大型語言模型入門。在 NVIDIA TensorRT 論壇 中,您可以找到更多相關討論。

    ?

    ?

    0

    標簽

    人人超碰97caoporen国产