• <xmp id="om0om">
  • <table id="om0om"><noscript id="om0om"></noscript></table>
  • 生成式人工智能/大語言模型

    新一代的 FlashAttention

    NVIDIA 很高興能與 Colfax、Together.ai、Meta 和普林斯頓大學合作,利用 Hopper GPU 架構和 Tensor Core,加速關鍵的融合注意力內核,使用 CUTLASS 3。

    FlashAttention-3 采用關鍵技術,相比使用 FP16 的 FlashAttention-2,性能提升 1.52.0 倍,最高可達 740 TFLOPS。另外,在使用 FP8 時,FlashAttention-3 可達到高達 1.2 PFLOPS,且誤差比基準 FP8 注意力小 2.6 倍。

    CUTLASS 是一個開源 CUDA 庫,旨在支持深度學習和 HPC 從業者在 NVIDIA Tensor Core GPU 上實現高速性能,涵蓋自定義算法和研究、生產工作負載等多種場景。

    有關協作的更多信息,請參閱 FlashAttention-3:快速準確的注意力與異步技術和低精度帖子,以及 研究論文

    0

    標簽

    人人超碰97caoporen国产