• <xmp id="om0om">
  • <table id="om0om"><noscript id="om0om"></noscript></table>
  • Data Science

    ????? ????, ????? ??? ????: ??? ?? ??? ???? 32? ? ?? ??? ??

    Reading Time: 6 minutes

    ?? AI ??????? ?? ?? ??? ???? ???? ???? ??? ?? ????? ??? ??? ?? ? ???? ????. ????? ??? ???? AI ????, ???? ? ??? ??? ??? ??? ???? ?? ?? ??, ??? ?? ???? ???? ?? ???? ?? ??, ??? ??? ?? ??? ???? ???? ???? ???? ??? ??? ???? ???? ?? ??? ???? ???? ?? ??????. ??? ?? ????? ??? ?????? ??? ?????.

    ??? ??? ???? ????? ?????, ?? GPU? ??? ?? ? ?? ??? ???? ??? ??? FP4 ??? NVIDIA Blackwell ???? ???? ???? NVLink ???? ???? ??????. ?? ????? ???? Helix Parallelism? Blackwell? ?? ??? ???, ??? ?????? ??? ???? ?? ?? ??? ?? ?? ?? 32? ? ?? ?? ???? ??? ?? ?? ?? ??? ? ??? ???.

    ?, AI ????? ?????? ?? ? ?? ??? ? ?? ????? ? ??? ???? ??? ? ?? ?????.

    (??: ? ????? ???? “????(context)”? ??? ??? ???? ???? ????, ? ??? ???? ???? ?? ?? ? ??? KV ??? ?????.)

    ??? ?? ??: KV ?? ? FFN ??? ??

    ??? ???? ???? ?????, ???(?, ??) ???? ? ?? ?? ?? ??? ???? ???.

    • Key-Value(KV) ?? ????: ??? ? ??? ????? ??? ?, ? GPU? ??? DRAM?? ?? ??? ??? ???(KV ??) ??? ???. ??? ???? ????? DRAM ???? ?????, ?? ? ?? ??(Token-To-Token Latency, TTL)? ?????, ???? ??? ????? ?? ?? ??? ??? ???? ???.
    • Feed-Forward Network(FFN) ??? ??: ???? ??? ??? ??? ??? ??? ??? ? FFN ???? DRAM?? ???? ???. ?? ??? ?? ??? ????? ? ??? ?? ??? ????? ???? ??, FFN ??? ??? ?? ??? ?? ??? ???.

    KV ?? ????? FFN ??? ????? ? ? ?? ??? ??? ??? ????? ??? ????? ?????.

    Tensor Parallelism(TP)? ?? ???????. TP? ??? ??? ??? ?? GPU? ???? FFN ??? ??? TTL? ??? ? ???, ? ???? ??? ????. Llama ???? ???? Grouped Query Attention(GQA)?? DeepSeek ??? Multi-Latent Attention(MLA) ?? ??? ????? ?? ?? ??? ??? ?? KV ??? ?????. Figure 2(c)?? ? ? ???, TP ?? KV ?? ?? ???? GPU?? ??? ??? ? ??? KV ??? ???? ??, ?? ?????? ?? ?????. ? ??, TP? ??? KV ???? ??? ?? ???? DRAM ???? ?? ????? ???? ???? ???. MLA? ??, KV ?? ??? ???? TP? ??? ? ??? ?????.

    ???? ??? ?????? ????? ?? ??? ???? ??? ??? ??? ??? ? ????? Helix Parallelism? ? ??? ?????.

    Helix ?? ??

    Helix? ???? FFN? ??? ??? ??? ??????? ???? ????? ?? ????, ??? ?? ??? ? ???? KV ?? ? FFN ??? ?? ??? ????? ?????.

    ?? ?? 1? Helix? ??? ????? ??? ??? ???? FFN? ??? ??? ?????? ?????. DNA ???? ???? ??? ?? Helix? KV, ??, ??? ??? ? ??? ??? ??? ??? ??? ?? ??? ?????. Helix? ???? FFN? ?? ?? ??? ??? ?????? ? ??? ??? ??? ???? ???? ??? ? ??? ???. ? ?? ??? ??? GPU ?? ?????? ???? ???, Helix? ??? ???? ?? ??? ?? ??? ??? ?? GPU? ?? ??? ???? ??? ????? ??? ? ?? ???.

    ?? 1. Helix ?? ??? ?? ??. Helix? ??? ????? N=KVPxTPA, FFN ????? N=TPFxEP? ?????? ? ???? ??? N?? GPU ?? ??????.

    ??? ??

    Helix? KV Parallelism(KVP)? ???? ??? ? ??? KV ??? ??? ???? ???? ?? KVP?? GPU? ?????. ???, ??? ???? Tensor Parallelism? ?????, ?? TPA?? ?? ? QKV ????? ???? GPU ?? ?????. ? TPA ?? KV ?? ??? ??? ?? ???? KV ??? GPU ?? ???? ??? ???.

    ??? ?? ??? Figure 2(d)? ???? ??? ?? ?????? ?????. ? ??, ? N = KVP × TPA?? GPU? ??? ??? ????? KV ??? ???? ?? ??? ? ?? ???. ??? N? ?? ?? ??? ???? GPU? ? ?? ????, ??? N?? GPU ??? ?? FFN ????? ??????.

    ?? 2. ??? ?? ?? ??? ??. TP? KV ??? ?? ??? ?? ??? ?????, ?? ??? ? ??? ????? ??????. Helix? TP=2? KVP=2? ???? 2?? ????? ?????? ?? ?????.

    ??? ??? all-gather ??? ??? ??, Helix? ? KVP GPU? ?? KV ??? ??? ?? ?? ??? ????? ??, QKV ????? ?? ?????. ?? ?? ? KV ???? ??? ???? FlashAttention? ??? ? ????.

    ?? FlashAttention ????, KVP GPU ? ?? ?? ??? ?? ?? all-to-all ??? ????, ?? ??? ??? log-sum-exp ??? ?? ?????. ??? ?? ? ?? ??? ?? ??? ?? ??? ?? ?????, KV ?? ???? ????? ????. ??? ???? ??? ??? ???? ?????? ???? ??? ?????. ? GPU? ???? ??? SoftMax ??? ??? ??????.

    ? all-to-all ??? ??? KVP GPU? attention ??? linear ??? ?? TP ??(TP = N = KVP × TPA)?? ????? ??? ???. ? ??? NVLink ? NVL72? ???? ?????? ????, ??? GPU ? ?? ?? ??? ???? ???. Figure 2? ??? ??? ??? ?? ??? ? ????? ????? ?????.

    TTL? ?? ??? ??, Helix? HOP-B(Helix overlap pipeline-batch-wise)?? ??? ?????? ??? ?????. Figure 3?? ????, ? ??? ?? ??? ??? ??? ???? ???? ????. ??? ??? ?? ??? ??? ???? ??, ?? ??? all-to-all ??? ???? ??? ?? ??? ??? ??? ?????. ??? ??? ??? ???? ??? ???? ?? ??? ??? ?? ?? ???, GPU ???? ??? ??? ??? ??? ?? ??????.

    ?? 3. HOP-B? ??? ?? ??-?? ??? ??????.

    ?? 3(??)??? HOP-B? ???? ?? ??, 8?? ??? ??? ??? ???(lockstep) ????, ?? all-to-all ??? ????? ???? ??? ?????. ?? ??? ????? HOP-B? ??? ??, ? ??? ??? ?? ??? ??? ??? ????, ??? ??????? ?? TTL? ??? ??? ??? ? ????.

    FFN ??

    ??? ???? ??? N = KVP × TPA?? GPU ?? ?? ?? ?? FFN ?? ??? ??????. all-to-all ???? ??? ??? ?? ?? ?? ???? N?? GPU? ???? ????, ?? linear projection ??? TP ??(TP = N)? ?? ?????. ? GPU? ?? ??? ??? ???? ?? ? ??? ????, TP = N? GPU ? all-reduce? ??? ?? ??? ?????.

    Helix? ? ? ??? N?? GPU? ?? ???? FFN ??? ?????. ???? dense ????? 1D TP(N = TPF) ????, MoE ????? 2D TP × Expert Parallel(N = TPF × EP) ???? ?????.

    ?? KV ??

    ??? ??? ?? ??? ? ??? ?? ??? ?? ?? KVP GPU? ?????????. DRAM ??? ???? ?? Helix? KV ?? ????? KVP ?? ? ????? ???? ?? ?????. ?? ??, ?? 116? KVP 0??, 1732? KVP 1? ??? ????. ?? ?? KV ??? ???? ????, GPU ? ??? ??? ?? ?? ????, ??? ??? ?? ??? ???? ??? ???? ??? ? ????.

    Blackwell ?? ????? ??

    Helix? ?? ????? ?? LLM ????? ??? ?? ??? ?????. Figure 4? DeepSeek-R1 671B ??? 100? ??? ????? ???? ?? ???? ???-?? ?? ??? ???? ?????. ? ??? ??? TP, EP, PP, KVP? ?? ?? ?? ??? ?? ??? ????? ????? ?? ? ??? ?????? ?????.

    • ??? ?? ?? ?? ??? Helix? ?? ??? ?? ?? 32??? ???? ? ????(?, GPU? ?? ?? ?? 32? ??).
    • ?? ?? ?? ????? Helix? ??? ?????? ?? 1.5? ???? ? ????(?, ?? TTL? ?? 1.5??? ??).

    ??? ??? KV ??? FFN ???? ?? ?? ????? ???? DRAM ??? ?? ??? ?? ??? ??? ??? ??????. Helix? ???-?? ?? ??? ??? ??????, ? ?? ?? ????? ? ?? ???? ??? ? ??? ???. ??? ??? ??? ??? ??? ????? ????.

    ?? 4. 1?? ???? ??? DeepSeek-R1? ???? ??? ????. ??? ?? NVIDIA GB200 NVL72 (Blackwell) ????? ??? ??? ?????? ???? FP4 ???? ???? ???? ?? ?????.

    ?? ?????? ?? ??

    Helix Parallelism? Blackwell? ?? ??? ?? ????, ?????? ???? ??? ??? ?? ??? ??? ???? ??? ? ?? ???? ?????. ? ??? ??? ?? ?????? ???? ??? ???? ??? ??? ????.

    ?? ??

    Discuss (0)
    +1

    Tags

    人人超碰97caoporen国产