?? AI ??????? ?? ?? ??? ???? ???? ???? ??? ?? ????? ??? ??? ?? ? ???? ????. ????? ??? ???? AI ????, ???? ? ??? ??? ??? ??? ???? ?? ?? ??, ??? ?? ???? ???? ?? ???? ?? ??, ??? ??? ?? ??? ???? ???? ???? ???? ??? ??? ???? ???? ?? ??? ???? ???? ?? ??????. ??? ?? ????? ??? ?????? ??? ?????.
??? ??? ???? ????? ?????, ?? GPU? ??? ?? ? ?? ??? ???? ??? ??? FP4 ??? NVIDIA Blackwell ???? ???? ???? NVLink ???? ???? ??????. ?? ????? ???? Helix Parallelism? Blackwell? ?? ??? ???, ??? ?????? ??? ???? ?? ?? ??? ?? ?? ?? 32? ? ?? ?? ???? ??? ?? ?? ?? ??? ? ??? ???.
?, AI ????? ?????? ?? ? ?? ??? ? ?? ????? ? ??? ???? ??? ? ?? ?????.
(??: ? ????? ???? “????(context)”? ??? ??? ???? ???? ????, ? ??? ???? ???? ?? ?? ? ??? KV ??? ?????.)
??? ?? ??: KV ?? ? FFN ??? ??
??? ???? ???? ?????, ???(?, ??) ???? ? ?? ?? ?? ??? ???? ???.
- Key-Value(KV) ?? ????: ??? ? ??? ????? ??? ?, ? GPU? ??? DRAM?? ?? ??? ??? ???(KV ??) ??? ???. ??? ???? ????? DRAM ???? ?????, ?? ? ?? ??(Token-To-Token Latency, TTL)? ?????, ???? ??? ????? ?? ?? ??? ??? ???? ???.
- Feed-Forward Network(FFN) ??? ??: ???? ??? ??? ??? ??? ??? ??? ? FFN ???? DRAM?? ???? ???. ?? ??? ?? ??? ????? ? ??? ?? ??? ????? ???? ??, FFN ??? ??? ?? ??? ?? ??? ???.
KV ?? ????? FFN ??? ????? ? ? ?? ??? ??? ??? ????? ??? ????? ?????.
Tensor Parallelism(TP)? ?? ???????. TP? ??? ??? ??? ?? GPU? ???? FFN ??? ??? TTL? ??? ? ???, ? ???? ??? ????. Llama ???? ???? Grouped Query Attention(GQA)?? DeepSeek ??? Multi-Latent Attention(MLA) ?? ??? ????? ?? ?? ??? ??? ?? KV ??? ?????. Figure 2(c)?? ? ? ???, TP ?? KV ?? ?? ???? GPU?? ??? ??? ? ??? KV ??? ???? ??, ?? ?????? ?? ?????. ? ??, TP? ??? KV ???? ??? ?? ???? DRAM ???? ?? ????? ???? ???? ???. MLA? ??, KV ?? ??? ???? TP? ??? ? ??? ?????.
???? ??? ?????? ????? ?? ??? ???? ??? ??? ??? ??? ? ????? Helix Parallelism? ? ??? ?????.
Helix ?? ??
Helix? ???? FFN? ??? ??? ??? ??????? ???? ????? ?? ????, ??? ?? ??? ? ???? KV ?? ? FFN ??? ?? ??? ????? ?????.
?? ?? 1? Helix? ??? ????? ??? ??? ???? FFN? ??? ??? ?????? ?????. DNA ???? ???? ??? ?? Helix? KV, ??, ??? ??? ? ??? ??? ??? ??? ??? ?? ??? ?????. Helix? ???? FFN? ?? ?? ??? ??? ?????? ? ??? ??? ??? ???? ???? ??? ? ??? ???. ? ?? ??? ??? GPU ?? ?????? ???? ???, Helix? ??? ???? ?? ??? ?? ??? ??? ?? GPU? ?? ??? ???? ??? ????? ??? ? ?? ???.

??? ??
Helix? KV Parallelism(KVP)? ???? ??? ? ??? KV ??? ??? ???? ???? ?? KVP?? GPU? ?????. ???, ??? ???? Tensor Parallelism? ?????, ?? TPA?? ?? ? QKV ????? ???? GPU ?? ?????. ? TPA ?? KV ?? ??? ??? ?? ???? KV ??? GPU ?? ???? ??? ???.
??? ?? ??? Figure 2(d)? ???? ??? ?? ?????? ?????. ? ??, ? N = KVP × TPA?? GPU? ??? ??? ????? KV ??? ???? ?? ??? ? ?? ???. ??? N? ?? ?? ??? ???? GPU? ? ?? ????, ??? N?? GPU ??? ?? FFN ????? ??????.

??? ??? all-gather ??? ??? ??, Helix? ? KVP GPU? ?? KV ??? ??? ?? ?? ??? ????? ??, QKV ????? ?? ?????. ?? ?? ? KV ???? ??? ???? FlashAttention? ??? ? ????.
?? FlashAttention ????, KVP GPU ? ?? ?? ??? ?? ?? all-to-all ??? ????, ?? ??? ??? log-sum-exp ??? ?? ?????. ??? ?? ? ?? ??? ?? ??? ?? ??? ?? ?????, KV ?? ???? ????? ????. ??? ???? ??? ??? ???? ?????? ???? ??? ?????. ? GPU? ???? ??? SoftMax ??? ??? ??????.
? all-to-all ??? ??? KVP GPU? attention ??? linear ??? ?? TP ??(TP = N = KVP × TPA)?? ????? ??? ???. ? ??? NVLink ? NVL72? ???? ?????? ????, ??? GPU ? ?? ?? ??? ???? ???. Figure 2? ??? ??? ??? ?? ??? ? ????? ????? ?????.
TTL? ?? ??? ??, Helix? HOP-B(Helix overlap pipeline-batch-wise)?? ??? ?????? ??? ?????. Figure 3?? ????, ? ??? ?? ??? ??? ??? ???? ???? ????. ??? ??? ?? ??? ??? ???? ??, ?? ??? all-to-all ??? ???? ??? ?? ??? ??? ??? ?????. ??? ??? ??? ???? ??? ???? ?? ??? ??? ?? ?? ???, GPU ???? ??? ??? ??? ??? ?? ??????.

?? 3(??)??? HOP-B? ???? ?? ??, 8?? ??? ??? ??? ???(lockstep) ????, ?? all-to-all ??? ????? ???? ??? ?????. ?? ??? ????? HOP-B? ??? ??, ? ??? ??? ?? ??? ??? ??? ????, ??? ??????? ?? TTL? ??? ??? ??? ? ????.
FFN ??
??? ???? ??? N = KVP × TPA?? GPU ?? ?? ?? ?? FFN ?? ??? ??????. all-to-all ???? ??? ??? ?? ?? ?? ???? N?? GPU? ???? ????, ?? linear projection ??? TP ??(TP = N)? ?? ?????. ? GPU? ?? ??? ??? ???? ?? ? ??? ????, TP = N? GPU ? all-reduce? ??? ?? ??? ?????.
Helix? ? ? ??? N?? GPU? ?? ???? FFN ??? ?????. ???? dense ????? 1D TP(N = TPF) ????, MoE ????? 2D TP × Expert Parallel(N = TPF × EP) ???? ?????.
?? KV ??
??? ??? ?? ??? ? ??? ?? ??? ?? ?? KVP GPU? ?????????. DRAM ??? ???? ?? Helix? KV ?? ????? KVP ?? ? ????? ???? ?? ?????. ?? ??, ?? 116? KVP 0??, 1732? KVP 1? ??? ????. ?? ?? KV ??? ???? ????, GPU ? ??? ??? ?? ?? ????, ??? ??? ?? ??? ???? ??? ???? ??? ? ????.
Blackwell ?? ????? ??
Helix? ?? ????? ?? LLM ????? ??? ?? ??? ?????. Figure 4? DeepSeek-R1 671B ??? 100? ??? ????? ???? ?? ???? ???-?? ?? ??? ???? ?????. ? ??? ??? TP, EP, PP, KVP? ?? ?? ?? ??? ?? ??? ????? ????? ?? ? ??? ?????? ?????.
- ??? ?? ?? ?? ??? Helix? ?? ??? ?? ?? 32??? ???? ? ????(?, GPU? ?? ?? ?? 32? ??).
- ?? ?? ?? ????? Helix? ??? ?????? ?? 1.5? ???? ? ????(?, ?? TTL? ?? 1.5??? ??).
??? ??? KV ??? FFN ???? ?? ?? ????? ???? DRAM ??? ?? ??? ?? ??? ??? ??? ??????. Helix? ???-?? ?? ??? ??? ??????, ? ?? ?? ????? ? ?? ???? ??? ? ??? ???. ??? ??? ??? ??? ??? ????? ????.

?? ?????? ?? ??
Helix Parallelism? Blackwell? ?? ??? ?? ????, ?????? ???? ??? ??? ?? ??? ??? ???? ??? ? ?? ???? ?????. ? ??? ??? ?? ?????? ???? ??? ???? ??? ??? ????.