边吃奶边添下面好爽,久久天天躁狠狠躁夜夜av不卡,狠狠色欧美亚洲狠狠色www

熱點新聞

視頻中心

潤和軟件發布StackRUNS異構分布式推理框架，釋放算力效能

編輯：發布時間：2025-06-11瀏覽次數：151

當下，AI模型規模持續膨脹、多模態應用場景日益復雜，企業正面臨異構算力資源碎片化帶來的嚴峻挑戰。為應對行業痛點，江蘇潤和軟件股份有限公司（以下簡稱“潤和軟件”）正式發布自主研發的StackRUNS異構分布式推理框架，高效融合異構算力，精細化配置算力資源，釋放算力效能。

潤和軟件發布StackRUNS異構分布式推理框架

StackRUNS是基于“異構算力建模+動態調度優化+統一通信接口+模型分層加載”核心技術打造的輕量級分布式推理框架，可實現多類型AI設備的資源整合與大模型的協同高效推理，廣泛適用于對推理能力有高要求但資源異構、預算受限的實際應用場景，如多節點異構硬件的老舊部署環境、突發性大模型任務需求、高校或科研機構低成本模型實驗場景。目前，StackRUNS已在教育、安防、能源等行業落地，通過智能調度算力、分鐘級快速部署、分布式協同等能力，加快大模型落地進程。

功能架構

StackRUNS功能架構圖

1. 框架適配層：統一接入主流推理框架

通過統一的框架適配能力，StackRUNS可有效屏蔽上層差異，提升系統的靈活性與兼容性，支持主流框架與模型組件的即插即用，大幅縮短模型部署與遷移周期。

支持PyTorch、TensorFlow、MindSpore等主流AI框架；
無縫集成llama.cpp、vLLM等主流推理引擎；
插件化架構，支持多模型統一推理入口，便于快速上層接入與復用。

2.調度層：智能調度與自動并行優化

通過異構設備資源的智能感知與動態調度，StackRUNS可最大化利用系統整體算力，并通過推理場景的深度優化，顯著提升大模型多設備協同推理的效率與可控性。

異構資源感知與建模，實現不同設備算力精準識別；
自動并行策略生成與模型切分，支持切片并行、專家路由等；
涵蓋精度控制與任務生命周期管理，保障精度性能雙優；
通信圖優化與算子融合，提升跨設備數據流通效率。

3. 通信適配層：統一通信接口與性能反饋機制

StackRUNS具備統一通信能力適配的異構平臺，可有效消除設備間通信瓶頸，為分布式推理提供高效、穩定的通信支撐，提升跨設備協同性能。

提供統一通信算子接口，適配 HCCL、NCCL、RCCL等多種通信協議；
支持通信運行時、拓撲管理與性能建模，為調度策略提供反饋依據；
深度學習框架通信插件化集成，增強生態兼容性。

4. 硬件支持層：兼容多種AI算力平臺

StackRUNS全面兼容主流AI硬件平臺，涵蓋Ascend、NVIDIA、AMD、ARM、Intel、Mac等，實現算力資源的靈活組合與無縫協同，推動AI應用從“專用單機”邁向“異構集群”，釋放硬件潛能。

核心技術

StackRUNS架構圖

1. 異構算力識別與建模

通過自動識別和建模不同類型的計算資源，StackRUNS建立了統一的資源抽象層，確保在異構環境下的資源統一管理和高效利用。

資源抽象與建模：對各類計算設備的性能、內存、帶寬等關鍵參數進行建模，形成統一的資源描述；
動態資源感知：實時監控資源的使用情況，支持動態調整和優化。

2. 調度層

調度層根據任務需求和資源狀況，可根據計算任務智能分配算力資源，實現資源的高效利用和任務執行效率。

任務劃分與分配：將大模型分解為多個子任務，合理分配到不同的計算節點；
負載均衡：根據資源使用情況，動態調整任務分配，避免資源瓶頸；
容錯與恢復：在節點故障時，能夠快速重新調度任務，確保系統穩定性。

3. 通信適配層

通信適配層提供統一的通信接口，支持多種通信協議，實現高效的數據傳輸，確保在分布式環境下的統一、可靠通信。

協議適配：支持如NCCL、HCCL、RCCL等多種通信協議，確保在不同硬件平臺上的兼容性；
通信優化：通過通信圖優化、算子融合等技術，減少通信開銷，提高數據傳輸效率。

4. 大模型分層加載通訊

針對超大規模模型，StackRUNS采用分層加載和通信策略，優化模型的加載和推理過程，保持模型性能的同時，顯著降低通信成本，提升整體推理效率。

分層加載：通過結構感知的模型切分，需考慮各層之間的依賴關系和數據傳輸量；
通信與計算重疊執行：采用流水線并行策略，在模型推理過程中，采用異步通信策略，提高并行度和效率；
通信內容優化：采用混合精度傳輸策略，在不影響模精度的前提下，減少通信數據量是降低通信成本的直接方式；
拓撲感知的通信策略：根據硬件拓撲結構，優化通信路徑和方式，提升通信效率。

核心優勢

1. 異構兼容與靈活部署：適用于多種硬件架構，結合底層統一通信適配器，可在混合平臺中實現透明部署與調用；

2. 輕量級推理服務端：將推理能力解耦為服務端組件，便于調度層動態調配計算任務，按需分發至合適節點運行，實現推理資源的彈性擴展與動態負載均衡；

3. 通信優化與統一適配：通過“統一通信算子接口”與“深度學習框架插件”，支持異構資源統一調度、模型分布式執行與通信圖優化；

4. 分布式與邊云協同支持：結合通信適配層實現跨節點協同推理，亦支持邊緣側模型分片部署，打造邊云協同的智能推理能力；

5. 混合精度與策略支持：結合調度層的混合精度策略支持，充分利用不同設備的計算與內存資源，在資源受限環境下依然保障推理效率與響應速度。

適用場景

1. 多節點異構硬件的老舊部署環境：支持不同類型設備按性能分配模型層或批次任務，實現“以最小代價釋放最大算力”；

2. 臨時性、突發性大模型任務需求：臨時調用空閑設備組成協同集群，按需啟用、任務后回收，資源零浪費；

3. 多精度模型混合部署場景：在內存、算力受限環境下使用INT4、INT8等低精度模型提升吞吐與響應；

4. 邊緣設備能力有限邊云協同：模型分層部署、分片推理、流水線式協同處理，保障復雜分析任務順利完成；

5. 資源彈性調度與負載均衡場景：多節點集群中按需調度模型推理任務，提升整體資源利用率；

6. 高校、科研機構低成本模型實驗場景：利用分布式異構環境拼接起完整的推理通路，推動教學與研究實際落地。

用戶價值

1. 智能調度算力，整體成本最高可降低60%成本

通過智能調度異構資源，打破設備之間的“算力孤島”，實現資源池化管理；
無需新增昂貴硬件投入，充分利用現有 GPU、NPU、CPU 組合，即可完成大模型部署；
原有設備基礎上部署大模型后，設備成本可節省約60%。

2. 分鐘級快速部署，推理任務響應能力提升超5倍

彈性部署機制支持模型“即需即調、即跑即收”，無需長時間準備資源環境；
針對高峰期或突發任務，可在5分鐘內完成大模型分布式加載與推理啟動；
部署周期相比傳統方案縮短70%+，顯著提升AI應用上線效率。

3.跨設備協同，讓原本“跑不動”的大模型輕松可落地

支持在多設備之間按層或專家模塊切分模型，實現“拼接式協同計算”；
即使單設備顯存不足，亦可通過分布式推理完整運行數百億/千億參數模型；
32B多模態模型部署在兩臺低配設備上推理延遲可控制在1s以內。

4.不中斷原有業務，系統兼容性與可控性雙優

推理任務調度與原有業務計算負載物理隔離，不影響日常業務穩定運行，推理任務可靈活穿插執行；
支持Linux、Windows、MacOS等多操作系統與NVIDIA、Ascend、AMD等主流硬件平臺。

5.邊云協同優化推理鏈路，體驗更優、響應更快

推理過程中自動判斷本地與遠程計算資源的最優分配路徑，降低核心推理延遲；
智能事件響應任務整體時延下降30%-50%，有效提升邊緣智能體驗。

6.促進AI普惠，加速智能化落地

高校與科研機構可在現有設備上部署百億級模型，用于課程教學與實驗研究；
中小企業可按業務需求靈活部署模型任務，降低模型接入門檻；
在未采購新設備條件下，超大模型教學實訓場景部署成功率超95%。

往期回顧

潤和軟件首獲WIND ESG評級AA級，積極踐行可持續發展理念

潤和軟件StackRUNS異構分布式推理框架行業應用案例

鲁鲁夜夜天天综合视频,国产精品成人一区二区三区,亚洲中文久久精品无码,四虎国产精品成人影院

業務

產品類型

行業解決方案

技術解決方案

熱點新聞

視頻中心

潤和軟件發布StackRUNS異構分布式推理框架，釋放算力效能