<xmp id="om0om">

<td id="om0om"></td>

<table id="om0om"><noscript id="om0om"></noscript></table>

對話式人工智能

大型語言模型簡介：提示工程和 P 調優

2023年 4月 23日

By Tanay Varshney and Annie Surla

0

點贊

ChatGPT 給人留下了深刻印象。用戶很樂意使用人工智能聊天機器人提問、寫詩、塑造互動角色、充當個人助理等等。大語言模型（ LLM ）為 ChatGPT 供電，這些模型就是本文的主題

在更仔細地考慮 LLM 之前，我們首先想確定語言模型的作用。語言模型給出了一個單詞在單詞序列中有效的概率分布。從本質上講，語言模型的工作是預測哪個詞最適合一個句子。圖 1 提供了一個示例。

Screenshot of the words, "Hey I need to chop this onion, can you pass me the [?] -- Model's prediction[?]: Knife." — 圖 1 。使用語言模型進行簡單單詞預測

雖然像 BERT 這樣的語言模型已經被有效地用于處理文本分類等許多下游任務，但已經觀察到，隨著這些模型規模的增加，某些額外的能力也會出現

這種規模的增加通常伴隨著以下三個維度的相應增加：參數的數量、訓練數據和訓練模型所需的計算資源。有關詳細信息，請參閱Emergent Abilities of Large Language Models.

LLM 是一種深度學習模型，可以使用大型數據集識別、總結、翻譯、預測和生成內容。 LLM 沒有一個集合的界限，但為了本討論的目的，我們使用這個術語來指代任何 GPT 規模的模型或具有 1B 或更多參數的模

這篇文章解釋了在使用較小語言模型構建的一組模型管道上使用 LLM 的好處。它還涵蓋了以下基本內容：

LLM 提示
快速工程
P- 調諧

為什么要使用大型語言模型？

聊天機器人通常是由一組 BERT 模型和一個對話框管理器構建的。這種方法具有一些優點，例如更小的模型，這可以降低延遲和計算需求。這反過來又更具成本效益。那么，為什么不使用合奏而不是 LLM 呢？

就其設計而言，合奏團不如 LLM 靈活。這種靈活性來自生成能力，以及所述模型是在需要各種任務的大型數據語料庫上訓練的。
在許多情況下，獲得足夠的數據來應對挑戰是不可行的。
每個集合都有自己的 MLOps 管道。維護和更新大量復雜的合奏是困難的，因為每個合奏中的每個模型都必須定期進行微調。

An image containing examples for Question Answering, Content Generation, Paraphrasing, and Personal Assistant style tasks. — 圖 2 :可以由單個 LLM 處理的可能任務的子集

LLM 在多個系綜中的價值

可以說，一組模型可以比 LLM 便宜。然而，僅考慮推理成本，這一假設忽略了以下考慮因素：

節省工程時間和成本：構建、維護和擴展集成是一項復雜的挑戰。每個組件模型都必須進行微調。用于模型推理和縮放以適應流量的人工智能基礎設施需要相當多的時間來構建。這是針對一項技能。為了模仿 LLM ，必須建立多種技能。
更短的功能發布時間：為一項新技能建立一個新管道所需的時間通常比對 LLM 進行 p 調諧所需要的時間更長（稍后將對此進行詳細介紹）。這意味著 TTM 要長得多。
數據采集和質量維護：任何專門構建的集合都需要大量的特定病例數據，而這些數據并不總是可用的。必須在每個模型的基礎上收集這些數據。換句話說，除了來自集成的 I / O 之外，還需要用于集成中使用的每個單獨模型的數據集。此外，所有模型都會隨著時間的推移而漂移，在使用多個模型時，用于微調的維護成本會迅速增加。

這些考慮因素顯示了在多個系綜上使用 LLM 的價值。

提示 LLM

提示被用作與 LLM 交互以完成任務的一種手段。提示是用戶提供的輸入，模型要對其做出響應。提示可以包括說明、問題或任何其他類型的輸入，具體取決于模型的預期用途。例如，在穩定擴散模型的情況下，提示是要生成的圖像的描述

The DALL-E 2 LLM textural prompt, “Cat as a scientist conducting experiments in a lab” generates an image of a cat wearing glasses mixing liquid in a glass. — 圖 3 。 DALL-E 2 文本提示（左）和生成的圖像（右）

提示也可以采用圖像的形式。通過這種方法，生成的文本輸出描述了圖像提示。這通常用于圖像字幕等任務。

An image prompt of a black and white cat generates the text, “a black and white cat on a table.” — 圖 4 。圖像提示（左）和生成的文本（右）

對于 GPT-3 等模型，文本提示可以是一個簡單的問題，比如“彩虹中有多少種顏色？”或者，提示可以采取復雜問題、數據或指令的形式，比如“寫一首勵志詩，讓我快樂。”

Examples of different types of prompts, including a simple question about the colors in a rainbow, an instruction prompt about composing a motivational poem, and a complicated prompt involving analyzing stock price data. — 圖 5 。不同類型提示的示例：簡單、復雜和說明

提示還可以包括特定的約束或要求，如語氣、風格，甚至所需的響應長度。例如，給朋友寫信的提示可以指定語氣、字數限制和要包含的特定主題

LLM 生成的響應的質量和相關性在很大程度上取決于提示的質量。因此，提示在自定義 LLM 以確保模型的響應滿足自定義用例的要求方面發揮著關鍵作用

提示工程以獲得更好的提示

術語快速工程是指仔細設計提示以生成特定輸出的過程。提示在從模型中獲得最佳結果方面發揮著關鍵作用，而如何編寫提示可以對生成的輸出產生很大影響。以下示例討論了三種不同的策略：

零樣本提示
很少提示射擊
思維鏈提示

零樣本意味著提示模型，而不顯示任何來自模型的預期行為示例。例如，一個零樣本提示會提出一個問題。

Screenshot of the question, "What is the capital of France?" and the answer, "France." — 圖 7 。一個簡單的問題是零樣本提示的示例

在圖 7 中，答案是錯誤的，因為巴黎是首都。從答案來看，模型可能不理解“資本”一詞在這種情況下的使用

克服這個問題的一個簡單方法是在提示中給出一些例子。這種類型的提示被稱為少鏡頭提示。在提出實際問題之前，您提供了幾個例子

Screenshot of multiple questions regarding the capitals of different countries before asking the question about the capital of France. — 圖 8 。幾個鏡頭提示的示例問題

幾次射擊提示使模型能夠在沒有訓練的情況下進行學習。這是設計提示的一種方法

你如何讓模型合乎邏輯地回答一個問題？要了解這一點，請從更復雜的零樣本提示開始。

Screenshot of a question, "A juggler can juggle 16 balls. Half of the balls are golf balls and half the golf balls are blue. How many blue golf balls are there?" and the answer, "There are 8 blue golf balls." — 圖 9 。一個復雜的邏輯問題零樣本提示

在圖 9 中，答案再次出現錯誤。（正確答案是四個藍色高爾夫球。）為了幫助發展推理，請使用一種名為思維鏈提示。通過提供一些鏡頭示例來做到這一點，其中解釋了推理過程。當 LLM 回答提示時，它也會顯示其推理過程。

The example prompt shows Step 1 as "There are 4 balls.", step 2 as "There are 2 golf balls.", step 3 as "There is one red golf ball.", and the conclusion as "So there is one red golf ball." Given the example, the model produces the correct number of blue golf balls for the earlier question. — 圖 10 。幾個鏡頭的思維鏈提示示例，使 LLM 能夠通過推理準確回答

雖然圖 10 中所示的示例是一個“思考鏈”提示，但您也可以給出一個“零樣本鏈”提示。這種類型的提示包括諸如“讓我們從邏輯上思考這個問題”之類的短語

The use of the phrase 'Let's think about this logically.' helps change the result to a three-item list of the story problem and an equation that produces the correct result of 4 blue golf balls. — 圖 11 。零樣本思維鏈提示，使 LLM 能夠通過推理準確回答

通過這種方法， LLM 生成了一個能夠準確回答問題的思想鏈。嘗試一系列不同的提示是很有用的

P- 調整以自定義 LLM

如前所述，即時工程是定制模型響應的一種方法。然而，這種方法有缺點：

可以使用少量示例，從而限制控制級別。
示例必須預先附加，這會影響代幣預算

如何繞過這些限制？

遷移學習是一個明顯的候選者：從一個基本模型開始，使用特定于用例的數據來微調模型。這種方法在處理常規模型時效果很好，但微調具有 530B 參數的模型（比 BERT 模型大約 5300 倍）會消耗相當大的時間和資源

P- 調諧，或迅速調諧, 是一種參數有效的調整技術，可以解決這一挑戰.P- 調諧包括在使用 LLM 之前使用一個小的可訓練模型。小模型用于對文本提示進行編碼，并生成特定于任務的虛擬令牌

這些虛擬令牌被預先附加到提示并傳遞給 LLM 。當調優過程完成時，這些虛擬令牌被存儲在查找表中，并在推理過程中使用，取代較小的模型。

Diagram shows a prompt, "How do I bake a cake?" going through a lighter p-tuned model before going through an LLM to produce a result that starts with, "For baking a cake follow this recipe...". — 圖 12 。即時調諧的一般流程

這一過程是有益的，原因如下：

與微調 LLM 相比，定制模型管道以獲得所需結果所需的資源要少得多。
調整較小型號所需的時間要少得多（最快可達約 20 分鐘）。
在不需要大量內存的情況下，可以保存對不同任務進行 p 調整的模型。

這個NVIDIA NeMo 云服務簡化了這個過程。有關詳細信息，請參閱p-tuning the models in the NeMo service（您必須是早期訪問計劃的成員）。

結論

這篇文章討論了 LLM ，并概述了它們的使用案例。它還涵蓋了定制 LLM 行為所涉及的基本概念，包括各種類型的提示、提示工程和 p 調整。

有關詳細信息，請參閱more posts about LLMs.

?

相關資源

GTC session: InstantSpeech: Instant Synchronous Text-to-Speech Synthesis for LLM-Driven Voice Chatbots
GTC session: Scaling LLMs to Support 14 Million Users while Optimizing Performance and Accuracy
GTC session: Optimize Parallelism in Large Language Models Training: Trends and Future Directions
SDK: Llama3 8B Instruct NIM
SDK: Triton Inference Server
SDK: NeMo Megatron Core

0

點贊

標簽

對話式人工智能 | 生成式人工智能/大語言模型 | BERT | Deep dive | NeMo 框架 | 云服務 | 會話 AI / NLP | 大型語言模型（ LLMs ） | 擴散模型 | 文本生成 | 新手技術 | 生成型人工智能 | 聊天機器人 | 自然語言處理 | 金融服務 | 零售/消費包裝商品

關于作者

Tanay Varshney 是 NVIDIA 的一名深入學習的技術營銷工程師，負責廣泛的 DL 軟件產品。他擁有紐約大學計算機科學碩士學位，專注于計算機視覺、數據可視化和城市分析的橫斷面。

查看 Tanay Varshney 所有文章

Annie Surla 是 NVIDIA 的開發倡導工程師負責開發和展示各種深度學習軟件產品她在包括視覺和 NLP 在內的深度學習應用程序方面擁有豐富的工作經驗她擁有杜克大學工程管理碩士學位

查看 Annie Surla 所有文章

人人超碰97caoporen国产