中科驭数HADOS 3.0:以四大架构革新,全面拥抱敏捷开发理念,引领DPU应用生态

一家成功的大算力芯片公司,其核心壁垒必须是软硬兼备的,既要有芯片架构的强大技术壁垒,更要有持久投入的、生态兼容完备的软件护城河。HADOS,就是中科驭数的软件护城河。

——中科驭数高级副总裁 张宇

近日,在DPU基础软件开发上,中科驭数迎来了一项重要的突破成果——HADOS 正式来到3.0版本。

HADOS 3.0是国内DPU软件研发平台的一个里程碑版本,集结了中科驭数6年全部软件研发投入与DPU在各行业广泛落地经验的整合和沉淀,体现了中科驭数全面拥抱敏捷开发的理念和方法,以及对高效、灵活、安全、易用的极致追求。

目前,HADOS 3.0核心代码量已经超过126万行,包含网络、计算、存储、安全等多层次API数量高达2765个,并且提供大量的开箱即用的组件和服务。相较于英特尔的IPDK和英伟达的DOCA,起步更早的HADOS在不少方面都有独特的沉淀和优势,包括云原生网络、微服务治理、全卸载能力、DPU全仿真技术、生态兼容性、运营管控、国内安全加解密,以及最重要的人工智能场景下国产AI芯片和GPU芯片网络方案等等方面。可以这么说,HADOS 3.0已经站在了业界最前沿,成为与国际巨头英伟达和英特尔并驾齐驱的本土解决方案。

HADOS 3.0 沿用驭数经典软件栈架构

为用户提供全方位、多层次的开发体验

从架构来看,HADOS3.0延续了此前两个大版本的三个逻辑功能分区架构,分别是超高性能的设备驱动层(DDL),兼容性完备的应用驱动层(ADL),以及功能强大且好用的应用开发平台层(ADP)。这也是中科驭数的经典软件栈架构模型设计,旨在为用户提供全方位、多层次的开发体验。

设备驱动层(DDL),作为性能与灵活性兼备的“不二之选”,集成了DPU开发所需的全套驱动模块与丰富的API接口,涵盖超低延迟LDMA、RDMA、虚拟化、存储加密等功能模块,并且支持NP的网络可编程,特别适用于追求极致性能与定制化的用户。

应用驱动层(ADL),聚焦于“三U一体”高性能算力中心,通过优化的DPDK、SPDK、OVS、OVN,以及云原生和服务网格等技术组件,为网络、计算、存储提供全面加速服务,助力用户轻松构建高性能算力底座,开箱即用,即刻享受DPU带来的性能飞跃。

而应用开发平台层(ADP),是HADOS的“敏捷”核心,配备了编译、仿真、调试、部署的全栈工具包,其中HADEP——业界首款DPU Emulator,更是历经三年精心打磨,实现了中科驭数DPU的全功能仿真,支持云化部署,让客户能够在云端一键部署DPU设备集群,大幅缩短开发周期,加速项目落地。此外,HADEP还支持与真实DPU的混合部署,进一步提升研发效率。

在内部,中科驭数本身就是HADEP的“重度用户”,基于云化部署的HADEP,搭建了自动化研发测试平台,大大节省了硬件资源协调和占用开销,提升了开发效率。这一举措不仅是HADOS敏捷异构开发理念的生动实践,也体现了驭数对研发效率与质量的不懈追求。

面对DPU开发平台的复杂性,中科驭数构建了ADIP——一套多流水线自动化DevOps与自动化测试平台,支持敏捷开发、持续集成、部署、安装、测试、迭代,确保HADOS的构建与自动化测试,成为推动HADOS成功的“幕后英雄”。

HADOS 3.0四大架构革新

全面拥抱敏捷开发,引领DPU应用生态

架构革新之一:为云原生而“原生”

云原生技术,既承载了当前通用数据中心中主流方式,更是在当下以AIGC和大模型为代表的人工智能浪潮中,承担核心算力操作系统角色,海量数据训练以及大模型训练、大模型推理都离不开云原生技术。

HADOS 3.0全面深度支持和拥抱原生网络集群,提供云原生网络加速、服务网格全卸载、裸金属共池管理和网络安全增强,为用户打造了一个高效率、低成本、安全可靠的开发与运行平台,提供了全面、高效的云原生解决方案。

架构革新之二:简约而不简单

深知客户在运维过程中面临的挑战与需求,HADOS 3.0通过一系列智能化的管理工具与服务,提供强大的智能化运维支撑。HADOS 3.0引入了完善的运维管控遥测接口,与服务组件无缝集成,确保了对DPU集群的全面监控与高效管理。更值得一提的是,HADOS灵活地提供了普罗米修斯等系统服务,满足客户多样化的运维需求。在此基础上,HADOS倾力打造的DPU UMS统一管理系统,不仅能实时监测DPU设备的状态,还能进行精细化的配置管理,确保集群的稳定运行与资源的高效利用。

通过这一平台,用户可以轻松实现设备的远程控制、故障预警、性能优化等功能,极大降低了运维的复杂度与成本,释放了更多精力专注于核心业务的创新与发展。

架构革新之三:层次化服务API,支持不同层次的二次开发

针对客户对于DPU开发使用门槛高的痛点,HADOS 3.0提供从基础到高级各个层次的服务API,更以直观清晰的文档,如全量、丰富的说明文档、用户手册、最佳编程实践与调优实践指导,助力开发者快速打开DPU应用的大门,大幅缩短项目启动周期,有效控制开发成本。

架构革新之四:一云多芯

“一云多芯”是当前业界整个高性能数据中心绕不过去的主流趋势。为了顺应这一多元化需求,HADOS 3.0支持“一云多芯”策略,让DPU能够与不同CPU、操作系统、GPU及IAAS层软件系统无缝对接,做到全适配、全兼容承诺,让客户轻松构建“三U一体”高性能算力底座,一键部署,即刻体验敏捷异构的效益。HADOS 3.0目前已成为业内唯一一款生态全兼容的DPU应用开发平台,兼容了8款主流国产CPU平台和10大国产操作系统。

六年磨一剑,HADOS已经成为业内适配最完全、竞争力最强、国内实际落地部署最多的DPU软件开发平台,累计部署量已经超过了万卡级别。

HADOS 3.0每一行代码,每一个功能模块,都是基于中科驭数对用户需求的深刻理解,为用户提供了从底层硬件到上层应用的全方位加速,有效解决DPU开发与部署过程中的复杂性与挑战,是对高性能计算与DPU规模化应用落地挑战的有力回应。中科驭数将一如既往地站在DPU软硬件技术探索前沿,与广大用户一道,共筑高性能计算的坚实基石。所有的这些努力,也都代表着一个信念——把敏捷易用送给客户,把复杂挑战留给驭数。

最近更新

  1. docker php8.1+nginx base 镜像 dockerfile 配置

    2024-07-10 09:38:01       4 阅读
  2. Could not load dynamic library ‘cudart64_100.dll‘

    2024-07-10 09:38:01       5 阅读
  3. 在Django里面运行非项目文件

    2024-07-10 09:38:01       4 阅读
  4. Python语言-面向对象

    2024-07-10 09:38:01       4 阅读

热门阅读

  1. Llama-factory源码详细解读

    2024-07-10 09:38:01       10 阅读
  2. springBoot整合mongodb

    2024-07-10 09:38:01       6 阅读
  3. STM32 系统时钟初始化函数和延时函数

    2024-07-10 09:38:01       8 阅读
  4. Oracle数据库服务器CPU占用率巨高的问题排查思路

    2024-07-10 09:38:01       9 阅读
  5. WebKit简介及工作流程

    2024-07-10 09:38:01       9 阅读
  6. nlp中tokenizer用法

    2024-07-10 09:38:01       9 阅读