博客
关于我
“天河二号”总工程师杜云飞谈星光超算应用平台设计
阅读量:84 次
发布时间:2019-02-26

本文共 1141 字,大约阅读时间需要 3 分钟。

星光超算应用平台——从研发到部署的全生命周期管理

杜云飞在2020年OpenI/O启智开发者大会上发表的主题报告《星光超算应用平台》引发了广泛关注。本文将详细介绍该平台的设计理念、架构以及实践应用场景。

一、平台建设背景

星光超算平台的建设始于2016年,由国家超级计算广州中心主导,旨在解决AI时代超算应用的融合挑战。传统的高性能计算(HPC)主要依赖于双精度浮点计算,而AI时代的计算需求越来越多样化,包括单精度、半精度甚至更低精度计算。如何在传统HPC基础上更好地支持AI应用,是星光平台面临的核心挑战。

二、平台架构设计

星光平台采用微服务架构,支持程序员进行功能切割和模块化开发。平台主要功能包括资源管理、工具流数据管理、开发环境以及辅助功能。通过微服务架构,平台能够灵活应对不同应用场景的需求。

三、开发流程与技术方法

星光平台的开发过程借鉴了企业级开发流程,结合开源社区的成果,形成了严格的开发规范。开发过程中应用了微服务容器化和DevOps方法,确保了系统的可用性和可靠性。平台支持从代码开发到测试和生产环境管理的完整流程,注重系统的可扩展性和可维护性。

四、平台运行环境

平台采用Kubernetes(K8s)和容器技术进行资源管理,支持多种硬件资源的调度和部署。通过K8s集群管理,平台能够高效地处理CPU集群和GPU集群的资源分配,同时提供统一的服务发现和扩容缩容能力。

五、应用开发环境

星光平台提供定制化的云端开发环境,支持多种计算体系结构和加速器环境的统一开发。开发环境基于容器技术,能够根据需求自动生成适配不同架构的环境配置,简化了程序员的开发流程。

六、应用全生命周期管理

星光平台覆盖了应用开发、审核、发布和运行的完整周期。开发者可以通过平台界面定义应用的运行环境和输入输出参数,管理员则负责对应用的安全性和可知性进行审核。平台还支持应用的版本管理和权限控制,确保应用的可靠运行和数据安全性。

七、工作流管理系统

平台集成了支持复杂工作流的管理功能,特别是在需要多目标优化的应用场景中,工作流能够自动化处理参数调整和任务执行。通过实时监控和可视化展示,管理员可以有效管理和优化工作流执行过程。

八、镜像仓库建设

星光平台建立了面向HPC应用的镜像仓库,支持用户快速迁移软件环境。镜像仓库不仅适用于传统云服务场景,还专门为HPC环境设计,方便用户在不同硬件资源上部署应用。

九、总结与展望

星光超算应用平台通过整合传统HPC和新兴AI技术,实现了从研发到部署的全生命周期管理。平台的镜像仓库建设为HPC用户提供了便捷的软件迁移工具,镜像仓库已逐步向公众开放,成为中国高性能应用容器镜像中心。星光平台的成功应用,标志着中国超算技术在AI时代的重要进展。

转载地址:http://gazu.baihongyu.com/

你可能感兴趣的文章
opencv里用calcCovarMatrix计算协方差矩阵
查看>>
OpenCV错误:在setSize中断言失败(s&>;=0)-尝试将图像放置在网络摄像头提要上时
查看>>
opencv面向对象设计初探
查看>>
OpenCV(1)读写图像
查看>>
OpenCV:不规则形状区域中每种颜色的像素数?
查看>>
OpenCV:概念、历史、应用场景示例、核心模块、安装配置
查看>>
OpenDaylight融合OpenStack架构分析
查看>>
OpenERP ORM 对象方法列表
查看>>
openEuler Summit 2022 成功举行,开启全场景创新新时代
查看>>
openEuler 正式开放:推动计算多样化时代的到来
查看>>
OpenEuler23.03欧拉系统_安装瀚高数据库企业版6.0.4_openeuler切换root用户_su:拒绝权限_passwd: 鉴定令牌操作错误---国产瀚高数据库工作笔记001
查看>>
OpenEuler23.03欧拉系统_安装瀚高数据库企业版6.0.4_踩坑_安装以后系统无法联网_启动ens33网卡---国产瀚高数据库工作笔记002
查看>>
OpenFeign 入门与实战
查看>>
OpenFeign源码学习
查看>>
OpenFeign组件声明式服务调用
查看>>
openfeign远程调用不起作用解决_使用Spring Boot的spring.factories进行注入---SpringCloud Alibaba_若依微服务框架改造---工作笔记007
查看>>
openfire开发(四)消息拦截器
查看>>
openfire源码解读之将cache和session对象移入redis以提升性能
查看>>
Openfire身份认证绕过漏洞复现+利用(CVE-2023-32315)
查看>>
OpenForest 开源项目安装与使用指南
查看>>