岗位职责: ? 领导生产问题深入调查和解决,分析和报告生产事件从二级运营团队升级。 ? 作为事件响应流程的一部分,传达建议的缓解措施。 ? 进行事件后的经验教训和根本原因分析。? 定义并实施对业务交易、应用程序、网络服务等的监控。? 在定期总结性情报报告中报告生产事件。? 通过观察和研究系统的功能和性能来识别操作问题。? 通过收集、分析和总结运营和运营情况,提供运营管理信息、工程趋势。? 规划和实施灾难恢复计划。 ? 分析生产数据以进行改进和优化。 ? 协助各种项目确定运营要求。 ? 通过定义、研究、评估和测试替代方法来开发运营解决方案。 ? 开发测试自动化工具(冒烟/回归/集成测试) ? 帮助开发和改进操作手册以供使用。 ? 监督并努力优化运营流程,设计更高效的工作流程。 ? 开发脚本/工具来自动执行操作任务并改进操作可视化。 ? 为CICD 和DevOps 实践做出贡献。 ? 支持敏捷交付仪式。 ? 支持和指导初级团队成员以推动事件/问题的持续改进管理和产品设计。 ? 根据需要/计划提供24x7x365 支持。任职要求: ? 5年以上IT相关经验 ? 拥有 3 年 DevOps 工程师或类似软件工程职位经验 ? 在敏捷交付环境和/或 DevOps 技术和实践中工作的经验 ? 拥有至少一家主要云提供商(AWS、AliCloud、Azure)3年工作经验 ? 熟悉至少一种编程语言(Java、Python、Go等) ? 熟悉容器编排、虚拟化、微服务相关技术。 ? 熟悉DevOps工具集,例如Git、Jenkins、Docker、Kubernetes等。 ? 熟悉基础IT技术,如网络、安全、Web服务器、数据库等。 ? 对运营、服务和应用程序有深入的了解? 强大的分析、排除故障和解决问题的能力。? 善于沟通和汇报 ? 自己进行研究的能力。 ? 偶尔在非社交时间灵活工作,以支持关键业务需求(例如,非工作时间事件响应、异常中断等)。 ? 能够为安全团队和 DevOps 社区成员提供技术指导。