??? ??? ?? ??? ?? ?? ??? ?? ??? ????? ???? ??? ??? ??? ?? ?? ??? ??? ? ?? ?? ??? ?????. ?? ?????? ?? ??? ??? ??? ?? ?? ?? ??(LLM)? ?? ??? ???? ???? ??? ???? ?? ??? ??? ????? ??? ?????. ?? ?? ???, 700? ? ????? ?? ?? ?? LLM? SES AI? Molecular Universe LLM? ?????.
?? NVIDIA NeMo Curator,?NVIDIA NeMo Framework,?NVIDIA DGX Cloud, NVIDIA NIM,?? ??? ??? ?? ? ?? ??????, ??? ??, ????? ??, ?? ??(reasoning alignment) ?? ??? ??? ??? ??? ????? ???? ???? ??? ??? ???? ?????.
??

?? ?? ??(LLM)? ?? ??, ??? ??? ??, ??? ?? ?? ? ?? ??? ??? ??? ???? ? ???? ???????. ??? ?? LLM? ?? ?? ???? ?? ??? ??? ??? ?? ??? ????? ???, ?? ??? ????? ??? ??? ??? ??? ????.
??? ??? ???? ?? ??? ?? LLM? ? ???? ???? ???? ????. ???? ??? ??? ????? ? ?? ?? ??? ?? ??? ??? ??, ??? ?? ?? ??(Domain Adaptive Pretraining, DAPT)? ??? ?? ??(e.g., LLaMA)? ??? ???? ??? ????? ???? ??? ?????.
? ??? ?? ??? ??? ?? ?? ??? ??????, ??? ?? ?? ????? ??? ????? ??????. ???? ?? ??? ?? ??? ?? ????? ??? ? ??? fine-tuning? ?????. ??? ??? ????? ??? ?? ???? ?????, ??? ??? ?? ??? ????? ???? ????.
? ??? ???? ?? ‘?? ??’ ??? ?????. ?? ?? ??? ??? ??? ??? ???, ?? ??? ????, ??? ?? ???? ? ? ??? ????. ?? ?? ??? ??? ?? ???? ??? ??? ??????.
??? ??? ???? ?? SES AI? ???? ??? Molecular Universe LLM? ??????. ? ??? 700? ?? ????? ?? ??? ??? ?? ???, Llama 3.1 70B? ???? ??, ?? ??? ?? ???? ?? ??? ???? ??? ??? ??? ??? ???? ????.
? ??? ?? ??? ??? ??? ?? ??? ???? ?? ???? ?? ? ?? ??? ????, DAPT, ????? ??, ?? ?? fine-tuning? ???? ??? ?? ??? ???? ??? ?????? ?????.
Molecular Universe LLM? ?? ?? ??? ??? ??? ?? ? ??? ??? ??·????? AI ?? ??? ?? LLM???. ???? ????? ????? ??? ???? ???? ???, ??? ?? ?? ??? ???? ? ?????.
??? ?? ???? ??, ???? ??, ??? ??? ????? ??????, ??? ?? ?? ??? ?? ??? ???? ??? ?????, ??? ???? ???? ??? ?? ??????? ?????.
Molecular Universe LLM? NVIDIA NeMo Framework? ???? NVIDIA DGX Cloud?? ??? ?? ? ??? ?????? ?? ???????:
- 1??: NVIDIA NeMo Curator? ??? ?? ??? ??? ??? ????
- 2??: NVIDIA Llama 3.1 70B NIM? ??? ?? ???? ??? ???? ?? fine-tuning(SFT)
- 3??: ???? s1K Reasoning Data? ??? ??? ?? ?? ?? ??? ?? ??? ??
? ???? ??? ??? ????, ??? ????, ???? ??? ????? ?????. SES AI? Molecular Universe LLM? NVIDIA ALCHEMI GPU ?? ????? ??? ? NVIDIA cuML? ??? ?? ?? ?????? ?? ?? ?? ??? ??? ???? ???? ????.
???? ? ?? ?? ??? ??? ??? ??? ???????.

??? ??
Molecular Universe LLM? NVIDIA? ?? ???? ??? ????? ?? ??? ?? ??? AI ?? ???? NVIDIA DGX Cloud?? 128?? NVIDIA H100 GPU? ??? ???????. DGX Cloud? NVIDIA? ?? ???? Kubernetes ?? ????, Run:ai? ?? ?? ???? ??? ????, ??????? ??? ?? ?????. ???? ??? ??? ?? ???, ?? ?????? ??? ?? ??? ??? ? ????.
AI ?? ?? ?????? NVIDIA NeMo Framework? ??????, DGX Cloud ??? ??? ???? ?? ??? ??? ??? ??? AI ??? ????? ??, ??????, ??? ? ??? ?????. ?? ??? ????? ????, 4?? ???(4D parallelism) ? ?? ???? ?? ?? ?? GPU? ?? ?? ?? ???? ???? ?????.
?? NVIDIA Run:ai? GPU ???? ‘????’ ? ‘??’ ??? ???????? ? ??? ???, ? ?? ?? ??? ??? ??? ??? ???? ? ??? ???. ? ????? ???? ???(workload bursting)? ???, ????? ?? ??? ?? ?? ?? ??? ??? ? ?? ?? GPU ??? ??? ????? ?????? ????? ?? ??? ???? ?????. ?? ?? ??? ???? ???, ?? ????? ??? ??? ? ????.

1??: ??? ?? ??
??? ?? ??? ??? ??? ?? ??? ???? ??, Llama 3.1 70B ???? ???? ?? ??(continuous pretraining)? ???????. ? ????? ??? ?? ??? ?? ?? ???? ??? ??? ??????, ? ?? ??? ??? ?? ??? ???? ??? ???? ???, ??? ?? ??? ??? ??? ? ?? ?????.
??? ???? ? ??
?? ??? ??? ???? ?? ?? ?? ? ????? ????? ??? 1,900? ?? ???? ???? ???? ????. ??? ??? ?? ?? ??? ? 1? ?????.
??? ??? PDF ??? ?? ? ?? ???? ??????, ?? NeMo Curator? ??? ?? ?? ? ??? ??? ?????. ? ???? ?? ???? ???? GPU ?? ?? ?? ??(fuzzy deduplication) ??? ??????, MinHash? Locality Sensitive Hashing(LSH) ?? ??? ???????. ??? ??? ?????? ?? ?? 1,900? ?? ??? 1,700? ?? ?? ?? ??? ???? ???????. NeMo Curator? ?? ??? ??? ???? ??, ??? ??? ??? ???? ?? ??? ????.
??? ?? | ??? |
Peer-reviewed Literature from Open Source | ~4M |
arXiv | 1.4M |
ChemRxiv | 26K |
Open Research | 12M |
PubChem | 60K |
Academic Textbooks or Monographs | 80 |
PLOS | 200K |
?? ???? ? ?? ?? ??
Molecular Universe LLM? ??? ??? LLaMA 3.1 70B? ?? ??? ???? ???? ??? ??? ?? ???????. ? ??? ?? ??(continued pretraining)? NeMo Framework? ??? ??????, ??? 4?? ???(4D parallelism), ?? ??? ??(mixed precision training), ??? ???(Flash Attention) ? ?? ??? ??? ???????. ??, **NeMo? ???? ???(context parallelism)? ?? 8K ??? ??? ? ???? ??? ???? ??, ???? ????? ??? ? ??? ?? ? ??? ??? ????.
??? ?? ??? ?? 8,192 ?? ???? ??????, ? ?? forward pass?? 524,288?? ??? ??????. ? 128?? NVIDIA H100 GPU? ??? ??? ?????, ? 144?? ?? bfloat16 ???? ??? ???????. ??? ?? ?? ??(DAPT)? ?? ?? ??? ??? ?? ?? ??? ????? ?????, ?? ?? ?? ???? ? 1.5% ???? ?? ????? ???????.
?? ? ?? ?? ??? ???? ???? ??? ??? ???? ?? ??? ??? ???????. ??? ??? ?? ?? ?? ????? ???? ??? ?? ???? ?? ??? ??????.
2??: ??? fine-tuning? ?? ?? ??
??? ?? ??? ??? ????, ????? ?? ??? ????? ?? ?? ?? ?? fine-tuning(SFT)? ???????. SFT? ???? ??? ?? ???? ???? ??? ????, ?? ??? ??? ?? ???? ? ????, ??? ?? ??? ??? ???? ? ?? ??????.
??? ???? ? ??
SES? ??? SFT ???? ??? ?? NVIDIA Llama 3.1 70B NIM? ??? ?? ??? ??(Synthetic Data Generation, SDG) ??? ??????. ? 5? ?? ??? ?????, ?? ??, ??, ??, ??? ?? ? ? ?? ??? ?? 20? ?? ????? ??? ?????, ? ? 16? ?? ???, 4? ?? ????? ???????.
??? Daring-Anteater ????? ?? ?? ?? 9? ?? ???, ?? SFT ????? ? 25? ??? ???????. ???? ??? SDG ???? ??????, NIM? ??? ??? ??? ??? ??? ?????? ?????.
?? ???? ? ?? ??
? ????? ?? LLaMA 3.1 70B ?????? ??? ???????, ?? NeMo Framework ?? ?? ?? ????? SFT? ???? ?? Molecular Universe Chat ??? ???????. ??? DGX Cloud?? 128?? NVIDIA H100 GPU? NVIDIA Run:ai ?????? ??? ??????, ? ?? ??? 32??? ??????.
?? ? ?? ?? ??? ?? ???? ??? ??? ???? ?? ??? ??????, ? 400?? ?? ????????. 600?? ?? ??? ?? ?? ??? ???? ?? ??? ?? ??? ???? ?????, ?? ??? ???? ???? ??? ??? ??? ??? ??? ? ?????.
3??: ??? ?? ???? ?? ????
?? ?? ??? ??? ?? ?? ??? ????? ?? fine-tuning? ??? ?? ? ??? ?? ??? ???? ??? ??????, ??? ??? ???? ??? ?? ?? ???? ??? ????.
?? ???? ??, Molecular Universe Chat ??? Gemini Thinking?? ??? ??? ???? ??? ?? ??? ?? s1K Reasoning Data ? ? 2? 5? ?? ??? ??? ?? ?? fine-tuning? ??????. ? ????? ?? ??? ?? ??? ???? Qwen2.5 7B/32B Instruct? ?? ??? ??? ?? ??? ? ?? ?? ??? ???? ??????.
??, LLM? ??? ??? ??, ?? ? ??? ????? ???????, ? ?? ??? ??? ??? ???? ? ?? ???? ??? ??? ?? ??? ? ? ??? ? ??? ????. ??, GPQA Diamond? ?? ??? ???? ???? ?? ??? ?? ??(decontamination)????.
??? ???, NeMo Framework? ??? ???? ??? 16K? ????, 64?? H100 GPU?? ? 5??, ? 12??? ?? ?? ?? fine-tuning? ??????. ? ??? ?? ??? ???? ???, ??? ??? ????? ????? ???? ??????, ? ?? GPQA Diamond?? 0.72???? ?? ??? ??????.
??
Molecular Universe Chat ? Reasoning ??? GPQA Diamond? ?? ?? ??? ?? ????? ??? ?? ??? ?????? ??? ??????. ? ??, GPQA Diamond?? 0.72?? ????, DeepSeek-R1 ? ?? ?? ?? ? ? ???? ?? ???? ???? ??? ?????.
??, Molecular Universe Reasoning ??? LLaMA 3.1 70B? ??? MMLU, Winogrande, Hellaswag, ARC-E? ?? ??? ?? ??????? ? ??? ??? ??????. ?? ??? ????? ??? ??, ???? ??? ?? ??? ?? ?? ??? ??? ?? ??? ???? ??? ?? ??? ? ??? ? ?????.

?? | ???? ? | ??? Q/A | ??? MCQ | ??? RC | ??? ?? | ??? ?? |
GPT-o1 | – | 96% | 92% | 90% | 88% | 84% |
Molecular Universe Reasoning | 70B | 96% | 89% | 90% | 86% | 82% |
Claude 3.7 Sonnet | – | 94% | 86% | 89% | 86% | 80% |
Gemini Flash Thinking | – | 92% | 85% | 88% | 82% | 79% |
Molecular Universe Chat | 70B | 93% | 79% | 84% | 79% | 73% |
LLaMA 3.1 | 70B | 71% | 67% | 78% | 75% | 66% |
Molecular Universe Chat ? Reasoning ??? 40,000? ??? ??? SFT ?? ??? ??? ??? ??? ??? ??? ?? ?? ????? ?? ??? ???????. ? ??? GPT-o1, LLaMA 3.1 70B, Claude 3.7 Sonnet 50B, Gemini 60B ?? ???????.
?? ??(Q&A), ??? ??(MCQ), ??, ??, ?? ? ??? ???? Molecular Universe Reasoning LLM? GPT-o1? ??? ?? ?? ?? ?? ???? ??? ??? ?????. GPT-o1? ?? ?? ?? ??? ??? ??? ?? ??????, Molecular Universe Reasoning ??? ?? ?? ???? ?? ?? ?? ???? ??? ?? ??? ???, ??? ??? ?? ??? ???? ??????.
?? ? ?? ??
Molecular Universe Reasoning? 700? ? ???? ??? ??? ??? ??? LLM??, ??? ??? ?? ? ?? ?? ???? ??? ??? ???????. ??? ?? ?? ??(domain-adaptive pretraining)? ?? ?? ?? ?? ??(reasoning-based supervised fine-tuning)? ??? ?? ???? ?? ??? ??, ???? ?? ?? ???? ?? ?? ?? ??? ?? ???????.
? ??? ?????? ?? ???? ??? ??? ?????, ?? ????? ??? ?? ???? ???? ?? ? ? ???? ?? ?? ??? ??????. ?? ??? NVIDIA NIM ???????? ?? ????, fine-tuning? ??? ????? ?? ???? ???? ??? ?? ??? ??? ? ????. Molecular Universe Reasoning ??? SES AI? ?? ?? ??? Molecular Universe(MU-0)? ??? ?????. MU-0? ??? ??? ???? ?? ?? ?? ?????? ?? ??? ? ??? ??? ????? ? ??? ??????.
?? ??? ??? ??? ??? ????? ????, ?? ??? ??? ??? ?? ?? ??(domain-specific reasoning post-training)? ?? ??? ?? ????? ????. ?? ?? ??? ?? ?? ??(RLHF) ??? ??? ??? ?? ??? ?? ? ???? ?????. ? ??? ??? ???? ??? ???? ?? ?? ??(<100B)? ?? ???? ??? ?? ?? ?? ???? ?????.
NVIDIA DGX Cloud?? NeMo ?????? ?? ? ????? NVIDIA ?? ?? ? GitHub?? ??????.
?? ?? NVIDIA DGX Cloud? ????, NVIDIA ALCHEMI ? NVIDIA cuML? ?? ?? ???? ???? ?? ??? ???.
? ??? NVIDIA? Zihan Wang, SES? Kang Xu? ??? ??? ??? ??? ???????.
?? ???
- GTC ??: ?? ???? AI ?? ?????
- GTC ??: ?? ???? ???? ??? ?? ??? LLM ??
- GTC ??: ??? ?? ?? ???? ?? AI ?? ?? ??
- NGC ????: genai-llm-playground
- SDK: Llama3 8B Instruct NIM
- ???: ?? ??? ??: NVIDIA BioNeMo ??