Deepak Unnikrishnan – NVIDIA 技術博客 http://www.open-lab.net/zh-cn/blog 閱讀開發者創建的最新技術信息、頭條新聞 和內容。 Thu, 08 Jun 2023 07:02:20 +0000 zh-CN hourly 1 196178272 CUDA 12.1 支持大內核參數 http://www.open-lab.net/zh-cn/blog/cuda-12-1-supports-large-kernel-parameters/ Mon, 05 Jun 2023 06:57:22 +0000 http://www.open-lab.net/zh-cn/blog/?p=7163 Continued]]> CUDA 內核函數參數通過恒定存儲器傳遞給設備,并且被限制為 4096 字節。 CUDA 12.1 將此參數限制從 4096 字節增加到 32764 字節,在所有設備架構上都有效,包括 NVIDIA Volta 及以上。 以前,傳遞超過 4096 字節的內核參數需要通過將多余的參數復制到常量內存中來繞過內核參數限制或,如下面的片段所示。 這種方法限制了可用性,因為您必須顯式管理常量內存分配和副本。復制操作還增加了顯著的延遲,降低了接受大于 4096 字節參數的延遲綁定內核的性能。 從 CUDA 12 . 1 開始,您現在可以在 NVIDIA Volta 及更高版本上傳遞多達 32764 個字節作為內核參數,從而得到下面第二個片段中所示的簡化實現。 請注意,在前面的兩個示例中,內核參數都用限定符,以指示它們是只讀的。 注意,

Source

]]>
7163
人人超碰97caoporen国产