岗位职责负责智算平台的日常监控与维护工作,包括但不限于服务器、存储设备、网络设备等硬件设施的状态监测,确保各硬件组件正常运行,及时发现并处理硬件、软件故障告警。负责智算平台各类资源的管理,包括计算资源(如CPU、GPU 等)、存储资源、网络资源等,实时掌握资源的使用情况,合理调配资源。根据业务需求的变化,及时调整资源分配方案,为新的智能计算任务提供充足且适配的资源保障。工作经验要求本科及以上学历,计算机科学与技术、软件工程、网络工程等相关专业。通常具有 3 年以上IT运维工作经验,有智算平台或类似大规模计算平台运维经验。精通 Linux 操作系统,掌握常用的命令行工具和系统管理工具,能够熟练进行系统安装、配置、维护和故障排查。熟悉计算机硬件体系结构,了解服务器、存储设备网络设备等硬件的基本原理和常见故障处理方法。掌握至少一种编程语言,如 Python、Shell 等,用于开发、维护自动化运维工具和脚本。熟悉网络原理和网络协议,能够进行网络配置、故障排查和网络性能优化;了解分布式存储系统、并行计算、高性能计算等相关知识,对智算平台的运行原理有一定的理解。熟悉常见监控工具(如 Zabbix、Prometheus 等)和日志分析工具(如 ELK 等),能够利用这些工具进行平台监控和故障分析。其它在面对复杂的故障情况和紧急的运维任务时,能够保持冷静,迅速采取行动,解决问题并恢复平台正常运行。具有较强的学习能力,能够不断学习和掌握新的运维技术和知识,关注智能计算领域的发展动态,及时了解相关新技术对运维工作的影响,并将其应用到实际工作中。