Kaggle 大師揭秘數據科學超能力的獲勝策略

來自 NVIDIA 的 Kaggle Grandmaster David Austin 和 Chris Deotte 以及 HP 的 Ruchi Bhatia 與來自 Kaggle 的 Brenda Flynn 一起參加了今年在拉斯維加斯舉行的 Google Cloud Next 大會。他們分享了自己的身份、競爭的動機，以及他們如何在全球最大的數據科學競賽平臺上做出貢獻并贏得比賽。

本博文簡要介紹了他們的討論，包括解決 Machine Learning 問題的最佳實踐、提示和技巧，以及他們最喜歡的工具。

認識 Kaggle Grandmaster

David Austin 是 NVIDIA Kaggle Grandmaster 團隊的成員。他還是 NVIDIA 的首席 AI 軟件工程師和開源 LLM 應用開發的技術主管。Austin 擁有化學工程學位，作為一名數據科學家，他為半導體制造、工業 AI 和高級 LLM 應用等多個行業做出了貢獻。他的工作重點是技術和實用解決方案的交叉，旨在突破 AI 及其實際應用的界限。Austin 是 Competitions Kaggle Grandmaster。

Ruchi Bhatia 是計算機工程師，擁有卡內基梅隆大學信息系統管理碩士學位。目前，她是 HP 數據科學和 AI 產品營銷經理。通過指導和分享她的旅程，她激勵和引導有抱負的技術人員在不斷發展的技術世界中探索自己的道路。她是筆記本、Datasets 和 Discussion 類別中最年輕的三位 Kaggle Grandmaster。

Chris Deotte 還是 NVIDIA Kaggle Grandmaster 團隊的成員和 NVIDIA 的高級數據科學家。獲得數學學士學位后，Deotte 曾在多個領域擁有豐富的職業生涯，包括圖形藝術家、攝影師、木工和教師。他還獲得了計算科學和數學博士學位，論文主題是優化并行處理，也是四屆 Kaggle Grandmaster。

Kaggle Grandmaster 反思

是什么促使您參加比賽，是什么促使您成為 Grandmaster？

Deotte：最初，我的目標不是成為一名 Grandmaster。我在 2018 年加入 Kaggle，并沉迷于精彩的社區、知識謎題和學習機會。有了我的教師背景，我很快通過分享成為了 Discussions 和 Notebooks Grandmaster。然后，我變得更加嚴肅，贏得了 Competitions 和 Datasets Grandmaster。我認為，我的多元化背景有助于我找到非常規解決方案，以取得優異的成績。

Bhatia： 在 Kaggle 上比賽最初是為了讓我的技能超越理論，把我在課堂或工作中學到的東西應用到雜亂的現實問題中。但隨著時間的推移，它變得更加復雜：反復迭代的習慣、在壓力下涌現的創造力，以及不斷推動每天提高 1% 的能力。

促使我成為數據集、Notebooks 和討論領域特級大師的原因并不是一場巨大的勝利，而是一致性、協作性和對學習的執著。我研究了熱門解決方案，問“為什么這樣做”，然后從頭開始重建模型，直到我真正理解它們。我周圍的人都比我好。我沒有試圖獲勝。我努力改進。隊伍緊隨其后。

回顧您最成功的比賽，您采用的最違反直覺或非常規的方法是什么，對您的結果產生了重大影響？

Austin：這可能只是非常規的，因為大多數人不會經常這樣做，但在提供數據的比賽中，我總是采取的一種方法是，在比賽的前幾天對數據進行可視化和理解。在圖像比賽中，我會將所有圖像渲染到一個頁面上，然后滾動瀏覽并嘗試理解它們告訴我的內容。

我們的大腦理解許多東西，并將我們引向算法無法理解的黑盒。在 NLP 比賽中，我也會做同樣的事情，在低維空間中可視化 embeddings。這項技術在衛星圖像比賽中發揮了重要作用，有助于了解圖像的不同分布，事實證明這些圖像是真實的，而不是合成的。

您如何處理新的 Machine Learning 問題？從何處著手？您尋求何種類型的信息或詳細信息來指導您的策略？

Deotte：開始一個項目很容易。首先探索數據，然后為數據類型構建標準 baseline 模型。最后，我們創建本地 validation 方案，并計算 baseline 的 validation metric 分數。這是我們的 baseline 分數。

確定如何突破基準是一項艱巨的任務。這要求我們通過 EDA 深入了解數據，并通過觀察基準模型的行為來理解數據。這種理解將提出新的嘗試思路。實施這些新想法的結果將促進更多的理解，這將提出更多的新想法。我們會盡快重復此過程！

您的開發設置是怎樣的？您認為哪些工具特別有用？

Austin： 我對自己的開發設置非常感興趣，也非常熱愛，因為我喜歡 computer hardware。我打造了過去 20 年擁有的每臺 PC，我喜歡做一些事情，例如針對特定工作負載的 overclock 特定組件、我運行大量的 watercool 組件，以及良好的 networking setup，以將繁重的硬件排除在我的家庭辦公室之外！

對于軟件，我喜歡使用開箱即用的環境和容器，因此與設置軟件和管理依賴項相比，我可以花更多時間構建解決方案。我經常使用 NVIDIA CUDA-X 數據科學庫 (例如 NVIDIA cuML) 執行數據可視化等任務，在 t-SNE 和 UMAP 等低維空間中繪制嵌入。

根據您自己的比賽經驗，您采用了什么策略或方法來不斷提升排名？

Bhatia： 最大的缺失環節通常是問題表述和迭代直覺。了解工具是一回事。 了解如何以及何時使用它們 是頂尖競爭對手的獨特之處。在 Kaggle 上，成功通常來自：

深度數據敘事，了解數據集的真正含義 。
智能 CV 策略，尤其是在處理泄露、時間間隔或數據不平衡時。
創意特征工程或目標轉換。

我使用的一種技術是使用多個 CV 折疊來模擬公共/私人 LB 拆分，以估計潛在的排行榜波動。這是對公共評分過擬合的合理檢查。此外，我還將比賽視為產品周期：首先是 MVP (簡單基準) ，然后使用反饋循環進行迭代，而不是完美主義。

您覺得 Kaggle 有哪些特別有用的技巧或 tips？

Deotte： 四件事。首先，我建議設置一個可靠的本地驗證。其次，使用 GPU 加速實驗流程，以 cuML 或 NVIDIA cuDF 等加速器盡可能快地運行實驗。第三，我建議分析和解決訓練數據與測試數據之間的差異。最后，我建議您了解競爭指標，并優化相應的解決方案。

Bhatia： Kaggle 的優勢在于通過實踐進行結構化學習。一個被低估的提示： 閱讀論壇討論，如研究論文 。頂級競爭對手通常會在這些主題、data leakage hints、alternative metrics 或 creative feature ideas 中留下金牌。

另一個關鍵是 Notebook 的再現性和運行時感知。使用輕量級腳本進行調試，重模型僅用于最終運行。保存中間特征和預測。將其視為生產 ML 流水線。

Three Kaggle Grandmasters standing for a picture at Google Cloud Next. — *圖 1。Google Cloud Next 的 Ruchi Bhatia、David Austin 和 Chris Deotte*

如何優化 AI 系統設計或 Prompt Engineering，以提高能效和計算性能并減少環境影響，同時保持輸出質量？

Bhatia： 在比賽中，我們很少明確談論能效，但我們通過剪枝、優化推理時間或使用 model distillation 直觀地進行設計。我相信 energy-aware modeling 很快將成為競爭優勢，尤其是在企業和產品環境中。在 prompt engineering 和 LLM 流程中，我考慮的是 latency-budgeted 推理，平衡推理深度與速度。我使用的一種策略是僅在需要時提供 chain-of-thought prompting，只在常見情況下回退到簡單的提示。token 用量和內存也是如此，盡可能減少不必要的上下文。

無論是適用于 PC 還是云系統的 AI，節能高效的 AI 都能帶來更好的用戶體驗和更低的總體擁有成本 (TCO) 。

如何選擇要使用的模型？

Bhatia：我的方法取決于問題的上下文。如果是 Kaggle 比賽，我關心的是壓縮性能。如果它面向產品，我會平衡性能與延遲、可解釋性和部署便利性。我不會一味追求“最佳”模型，而是看數據。如果我看到強烈的表格模式，我可以從 XGBoost 或 LightGBM 等基于樹的模型開始。如果是文本密集型模型，我會測試經典的 NLP 和基于 Transformer 的方法。對于圖像任務，我考慮先使用預訓練的 CNN，然后再微調更大的視覺模型。

我總是構建快速基準測試、線性模型和基本樹，以便了解信號。這些信息為我提供了一個關于解決方案所需復雜性的心理圖譜。從那里，我進行迭代。我會測試一些架構或框架，比較交叉驗證分數，并跟蹤泛化。

我提交時間不會太早。我將模型視為假設：測試、學習和根據需要進行支點。關鍵不只是選擇正確的模型，還在于知道何時從錯誤的模型繼續前進。

NVIDIA 擁有整個 Kaggle Grandmaster 團隊。這個團隊做什么？

Deotte： 團隊是一份理想的工作。作為我們工作職責的一部分，我們可以在 Kaggle 上競爭。我們利用從競爭中獲得的觀察和知識來幫助開發 NVIDIA 產品、改進 NVIDIA 內部項目，并幫助 NVIDIA 客戶。我們的專長是提高模型準確性，無論是構建更好的工具還是構建更好的模型，NVIDIA 都需要我們的專業知識。