岗位职责负责智算平台整体架构设计、规划与演进,确保架构具备高可用性、高扩展性、高性能、高安全性,以满足不断增长的智能计算业务需求。负责将不同的关键技术组件进行有效集成,搭建稳定且高效的智算平台系统,解决集成过程中出现的各类技术难题。对智算平台的整体性能进行监控、分析和评估,识别性能瓶颈所在,制定并实施相应的性能优化方案,提升平台的计算效率和响应速度。针对特定的智能计算任务,如深度学习模型训练、大规模数据分析等,进行针对性的性能调优,确保任务能够在最短时间内高质量完成。建立健全平台的可靠性机制,如容错处理、故障恢复等,确保平台在面对各类故障和异常情况时能够持续稳定运行。设计并落实智算平台的安全策略,包括数据安全、网络安全、访问控制等方面,防止数据泄露、恶意攻击等安全事件发生。深入研究和分析智能计算相关技术趋势,如云计算,人工智能算法、数据处理、高性能计算等,将合适的技术融入平台架构设计中。任职要求具有 5 年以上系统架构设计相关工作经验,有智算平台或类似大规模计算平台架构设计经验;具备中大规模智算平台项目管理经验,带领团队完成复杂的智算平台架构设计、建设和运营。精通计算机体系结构、操作系统、网络原理等基础知识,熟悉并行存储系统、并行计算、高性能计算等领域的技术原理和应用。丰富的技术组件选型和集成经验,熟悉各类计算硬件(如 CPU、GPU、FPGA 等)、分布式计算框架(如MPI、Hadoop、Spark 等)、分布式存储系统(如Lustre、GPFS、Ceph、GlusterFS 等)、网络安全设备(如Infniband网络、ROCE网络、防火墙等)、分布式资源调度系统(如SLRUM、LSF、K8S等)的特性和应用场景。熟练掌握至少一种主流的编程语言,如 Python、Java、C++、Golang、Shell等,具备扎实的编程和代码优化能力。其它具备强大的问题解决能力,能够快速准确地分析和诊断智算平台运行过程中出现的各类复杂技术问题,并提出有效的解决方案。在面对新技术挑战和项目压力时,能够保持冷静,灵活调整架构设计和技术方案,确保项目按时完成。优秀的沟通协作能力,能够与不同部门、不同专业背景的人员进行有效的沟通和协作,准确传达技术理念和需求,理解并满足各方的要求。具有强烈的学习欲望和快速学习新事物的能力,能够紧跟智能计算领域的技术发展动态,不断更新和完善自己的知识体系,将新的技术应用到平台架构设计中.