Posts by Laikh Tewari
數據科學
2025年 7月 7日
提出一個維基百科規模的問題:如何利用數百萬 token 的實時推理使世界更加智能
現代 AI 應用越來越依賴于將龐大的參數數量與數百萬個令牌的上下文窗口相結合的模型。無論是經過數月對話的 AI 智能體、
3 MIN READ
生成式人工智能/大語言模型
2025年 1月 16日
在 NVIDIA TensorRT-LLM 中引入新型 KV 緩存重用優化策略
語言模型通過預測下一個令牌 (給定所有先前的令牌,包括輸入文本令牌) 來生成文本。在 LLM 服務中,先前令牌的鍵和值元素用作歷史語境,
2 MIN READ