【岗位职责】 1、参与集团数据中心、云环境、GPU智算集群等基础设施运维; 2、负责基础设施监控、告警、和运维数据分析; 3、负责自动化运维工具,减少日常重复性工作,提升流程服务效率; 4、负责推进AIOps、FinOps的落地和发展。 【任职资格】 1、3年以上基础设施运维或运维开发工作经验;2、对AI大模型、机器学习在运维领域应用有落地经验;3、对AI(GPU)算力集群有运维经验优先; 4、熟练掌握Python/Shell/go等一种以上编程语言。具有流程工具、自动化运维工具与平台相关开发经验;5、深入使用公有云产品,如阿里云、腾讯云、AWS、华为云,对多云换环境云产品的监控、维护、管理有独到理解; 6、熟悉zabbix、grafana等运维监控平台。