使用 NVIDIA TensorRT-LLM 支持 CodeFuse-CodeLlama-34B 上的 int4 量化和推理優化實踐

Mon, 15 Jan 2024 06:38:12 +0000

Codefuse（https://github.com/codefuse-ai）是由螞蟻集團開發的代碼語言大模型，旨在支持整個軟件開發生命周期，涵蓋設計、需求、編碼、測試、部署、運維等關鍵階段。為了在下游任務上獲得更好的精度，Codefuse 提出了多任務微調框架（MFTCoder），能夠解決數據不平衡和不同收斂速度的問題。通過對比多個預訓練基座模型的精度表現，我們發現利用 MFTCoder [1,2] 微調后的模型顯著優于原始基座模型。其中，尤為值得關注的是采用了 MFTCoder 框架，并利用多任務數據集進行微調的 CodeFuse-CodeLlama-34B [3] 模型，在 HumanEval 評估數據集中取得了當時的最好結果。具體來說，基于 CodeLlama-34b-Python 模型進行微調的 CodeFuse-CodeLlama-34B 在…

Source

]]>

邵將 – NVIDIA 技術博客

使用 NVIDIA TensorRT-LLM 支持 CodeFuse-CodeLlama-34B 上的 int4 量化和推理優化實踐