1、负责业务系统可用性建设、监控及保障,确保年度SLA目标的达成;2、负责CI/CD流程支撑及优化,并协助应用运维、系统开发进行疑难问题处理;3、负责基础架构系统部分的技术评估、云原生容器技术栈实施落地等工作;职位要求:1、本科及以上学历,具备3年以上互联网行业运维工作经验;2、掌握Linux Shell、Python、Go中的至少一种运维常用编程语言,以SRE标准要求自己及团队;3、具有大规模Prometheus、K8S运维、优化或定制开发经验;4、熟悉各种类型AI加速卡,掌握AI训练框架部署调优者优先录用;