利用 RAPIDS 和 Ray 加速 GPU 數據分析

RAPIDS 是一套開源 GPU 加速的數據科學和 AI 庫，可通過 Spark 和 Dask 等分布式引擎進行橫向擴展。 Ray 是一種熱門的開源分布式 Python 框架，常用于擴展 AI 和機器學習 (ML) 應用。Ray 特別擅長簡化和擴展訓練和推理工作流，并且可以輕松面向 CPU 和 GPU 設備。

在本文中，我們將探討如何使用 Ray 和 RAPIDS 加速新型分析流程。

Ray Actors?

Ray 提供用于訓練和服務 ML 模型的高級抽象概念，同時我們將試驗 Ray 的核心，尤其是 Ray Actors。Actors 是有狀態的 workers，這意味著每個 worker 都可以存儲、管理和變異存儲的任何數據。例如，如果您想使用 cuDF 在 GPU 上加載一些數據，可以執行以下操作：

@ray.remote(num_gpus=1)
class cuDFActor:
    def __init__(self):
        ...
 
    def read_parquet(self, filepath: str, columns: list = None) -> cudf.DataFrame:
        return cudf.read_parquet(filepath, columns=columns)
 
# Start 4 Workers 
pool_size = 4
actor_pool = [cuDFActor.remote() for i in range(pool_size)]

此示例使用 Ray 在四個 GPU 上創建四個 Actor，并使用 cuDF 加速 IO。此示例可與其他 RAPIDS 優化 (使用 RMM 進行內存配置) 或常見 ETL 例程 (例如過濾/自定義函數和用戶定義函數) 一起使用：cudf ray-actor 示例。

Ray Actors 非常通用，可以快速用于并行 Python 庫，還可以輕松集成現有的分布式算法。此外，借助 Ray，您可以在多個 GPUs 和多個節點上輕松擴展這項工作。

NCCL 和 cuGraph?

許多 RAPIDS 實現的流行算法已經為 C++ 中的分布式加速 GPU 計算而構建。這些實現經過高度調整，并且依賴于與 NCCL 以及 RAFT 中的基元和求解器 (成對距離、k-means 聚類、迭代求解器等) 的加速通信。RAFT 基元用于多個 RAPIDS 庫 (包括 cuML 和 cuGraph)。

例如，cuGraph 弱連接組件 (WCC) 實現在很大程度上基于已盡快清理數據的流水線，從磁盤到較低級別的 CUDA C++ 實現。WCC 是一個很好的目標，它展示了開發者如何同時使用 RAPIDS (cuGraph) 和 Ray 來訪問功能強大的分布式加速算法。

要實施 WCC，需要以下內容：

將數據加載到 GPU 顯存中
啟動 NCCL 通信 (以及 cuGraph 子通信器)
實例化和配置內部多 GPU cuGraph 實現
執行 WCC

第一步已經演示。雖然 Ray 具有 NCCL hook ，但由于 cuGraph 很難管理通信，因此我們將依賴 RAFT NCCL 接口。以下是對剛才概述的要求的省略：

class RAFTActor:
    def __init__(self, index, pool_size, session_id):
        ...
 
    def broadcast_root_unique_id(self):
        # broadcast root/rank-0 to all actors
 
    def _setup_nccl(self):
        # start NCCL with identified rank-0 actor
 
    def _setup_raft(self):
        # configure RAFT and NCCL together
 
    def set_root_unique_id(self, root_uniqueId):
        # To be set rank-0 for all actors
 
@ray.remote(num_gpus=1)
class WCCActor(RAFTActor):
    def __init__(self, index, pool_size, session_id):
        super().__init__(index=index, pool_size=pool_size, session_id=session_id, actor_name_prefix="WCC")
 
    def weakly_connected_components(self, df):
        """
        1. Each actor loads in a chunk
        2. Each actor has a NCCL/RAFT Handle
        3. Pass each chunk and handle to MGGraph
        """
 
        src_array = df['src']
        dst_array = df['dst']
        weights = df['wgt']
 
        # Configure and setup a Multi-GPU cuGraph Object with 
        # edge list data and NCCL
     graph = MGGraph(src_array, dst_array, weights, ...)
      
        # Execute WCC
     weakly_connected_components(graph)
 
# Initialize Ray and Run WCC algorithm

這包括運行 cuGraph 弱連接組件所需的兩個類別。如需了解詳情，請參閱弱連接組件的實現。大部分工作是配置 NCCL/RAFT。此模式適用于 cuML 等其他庫，如 cuML k-means 實現所示。

結束語?

Ray 提供可表達且可擴展的 Actor 接口，可輕松用于 RAPIDS。我們探討了如何連接 Ray Actors 以使用優化的 CUDA C++ 和 NCCL 實現。本次探索主要側重于將 Ray Actors 作為啟動器的 Level 1 集成。

要詳細了解 GPU 加速數據處理，請加入 RAPIDS Slack 社區中的 3500 多名成員。

利用 RAPIDS 和 Ray 加速 GPU 數據分析

Ray Actors?

NCCL 和 cuGraph?

結束語?

相關資源

標簽

關于作者

利用 RAPIDS 和 Ray 加速 GPU 數據分析

Ray Actors?

NCCL 和 cuGraph?

結束語?

相關資源

標簽

關于作者

相關文章

加速數據分析：使用 GPU 的機器學習 - 加速 pandas 和 Scikit 學習

相關文章

使用 NVIDIA Air 服務將模擬與現實世界連接

云端 Apache Spark 加速深度學習和大語言模型推理

使用 NVIDIA NIM 對游戲進行代理式 LLM 和 VLM 推理基準測試

在大型語言模型時代，通過消息量化和流式傳輸實現高效的聯邦學習

高效擴展 Polars 的 GPU Parquet 讀取器