數據預處理 – NVIDIA 技術博客 http://www.open-lab.net/zh-cn/blog 閱讀開發者創建的最新技術信息、頭條新聞 和內容。 Fri, 30 May 2025 05:54:12 +0000 zh-CN hourly 1 196178272 利用 NVIDIA DALI 的最新技術實現高效數據處理 http://www.open-lab.net/zh-cn/blog/unlock-efficient-data-processing-with-the-latest-from-nvidia-dali/ Fri, 23 May 2025 05:50:57 +0000 http://www.open-lab.net/zh-cn/blog/?p=14056 Continued]]> NVIDIA DALI 是一個用于解碼和增強圖像、視頻和語音的便攜式開源軟件庫,最近推出了多項功能,可提高性能并支持 DALI 的新用例。這些更新旨在簡化 DALI 與現有 PyTorch 數據處理邏輯的集成,通過啟用 CPU 到 GPU 流以及添加新的視頻解碼模式來提高構建數據處理流程的靈活性。這些新功能使 DALI 成為深度學習從業者不可或缺的工具,包括: 圖 1 顯示了 Python 中不同的數據處理方法及其局限性。左圖展示了最簡單的方法,即同時創建多個 Python 線程。但是,由于 Python GIL,一次只能執行一個線程,導致 CPU 未得到充分利用。 中間圖使用獨立進程而非線程。雖然對 CPU 而言十分高效,但每個進程都會編排 GPU 以獨立工作,并且需要昂貴的 IPC 來聚合每個進程的結果。

Source

]]>
14056
掌握 LLM 技術:數據預處理 http://www.open-lab.net/zh-cn/blog/mastering-llm-techniques-data-preprocessing/ Fri, 15 Nov 2024 07:34:52 +0000 http://www.open-lab.net/zh-cn/blog/?p=12050 Continued]]> 大語言模型(LLMs) 的出現標志著各行業利用人工智能(AI)增強運營和服務的方式發生了重大轉變。通過自動化日常任務和簡化流程,LLMs 可以釋放人力資源,用于更具戰略性的工作,從而提高整體效率和生產力。 主要由于 LLM 對高質量數據的依賴性, 訓練和定制 LLM 以實現高準確度充滿挑戰。數據質量差和數據量不足會顯著降低模型準確性,因此數據集準備成為 AI 開發者的關鍵任務。 數據集通常包含重復文檔、個人身份信息(PII)和格式問題。一些數據集甚至包含對用戶構成風險的有毒或有害信息。在未進行適當處理的情況下基于這些數據集訓練模型會增加訓練時間并降低模型質量。另一個重大挑戰是數據稀缺。模型構建者公開可用的數據不足以用于訓練,這促使許多模型構建者轉而求助于第三方供應商,或使用高級語言模型生成合成數據。 在本文中,

Source

]]>
12050
為什么自動增強很重要 http://www.open-lab.net/zh-cn/blog/why-automatic-augmentation-matters/ Fri, 05 May 2023 03:17:54 +0000 http://www.open-lab.net/zh-cn/blog/?p=6917 Continued]]> 深度學習模型需要數百 GB 的數據才能在看不見的樣本上很好地泛化。數據擴充有助于增加數據集中示例的可變性。 傳統的數據擴充方法可以追溯到統計學習,當時擴充的選擇依賴于建立模型訓練的工程師的領域知識、技能和直覺。 自動增強出現了減少對手動數據預處理的依賴。它結合了應用自動調整和根據概率分布隨機選擇增強的思想。 事實證明,使用 AutoAugment 和 RandAugment 等自動數據增強方法可以通過使模型在訓練中看到的樣本多樣化來提高模型的準確性。自動擴充使數據預處理更加復雜,因為一批中的每個樣本都可以用不同的隨機擴充進行處理。 在這篇文章中,我們介紹了如何使用 NVIDIA DALI 實現和使用 GPU 加速自動增強來訓練,然后使用條件執行。 自動增強是基于標準的圖像變換,如旋轉、剪切、模糊或亮度調整。大多數操作都接受一個稱為幅值的控制參數。幅度越大,

Source

]]>
6917
人人超碰97caoporen国产