开发运维工程师工作职责:61 平台部署与运维:o 负责AI算力租用平台系统的部署、安装、配置和调试,包括服务器、网络、存储等基础设施的搭建和维护。o 负责平台软件的安装、部署、升级和维护,包括操作系统、容器平台、调度系统、监控系统等。o 负责算力集群的日常运维工作,包括节点管理、资源监控、故障排查、性能优化等。o 制定和完善平台运维规范、操作手册和应急预案。61 自动化运维平台开发:o 负责自动化运维平台的开发和搭建,实现服务器监控、平台运行状态监控、日志分析、故障告警等功能。o 编写自动化脚本和工具,提高运维效率,减少人工操作。61 平台开发与优化:o 参与平台架构设计和核心模块开发,提升平台性能和稳定性。o 负责平台核心模块的开发,包括资源调度与管理、容器化部署、监控告警系统、用户管理及计费系统等。o 根据业务需求,进行平台功能扩展和性能优化。61 文档编写与团队协作:o 编写平台相关技术文档,包括部署文档、运维手册、API文档等。o 积极参与团队技术分享和交流,提升团队整体技术水平。o 完成领导交办的其他任务。二、岗位要求1. 必备技能:61 学历专业: 本科及以上学历,计算机科学、软件工程、电子信息等相关专业。61 编程语言: 熟练掌握Python和面向对象编程,熟悉JSON/XML、HTTP、TCP/IP协议,具备网络和多线程开发经验。61 操作系统: 熟悉Linux系统原理,熟练掌握Shell脚本编写,能够分析和解决系统运行中的常见问题。61 版本控制: 熟练使用Git进行版本控制管理。61 文档编写: 具备良好的代码注释习惯,能够编写清晰、有条理的技术文档。61 学习能力: 具备强烈的技术热情和学习能力,能够自主探索和研究前沿技术。61 工作经验: 3-5年相关工作经验。2. 加分项:61 集群架构: 了解HPC集群架构,包括网络、存储、计算、调度等组件的工作原理。61 调度系统: 安装和使用过Slurm、PBS、LSF等至少一种作业调度系统,了解其配置和管理方法。61 容器技术: 熟悉Docker、Kubernetes等容器化技术,具备容器化应用部署和管理经验。61 云计算: 熟悉OpenStack、AWS、Azure等云计算平台,具备云上资源管理和运维经验。61 深度学习框架: 熟悉TensorFlow、PyTorch等主流深度学习框架,了解其运行机制和资源需求。61 英文能力: 具备良好的英文阅读能力,能够阅读和理解英文技术文档。