工作职责:SRE工程师,确保线上服务的稳定和性能,通过自动化、标准化和可扩展性来维护系统,解决运维难题,提升服务质量。负责构建和优化公司的软件和系统运维管理体系,确保系统的稳定、安全和高效运行。负责监控系统的性能和稳定性,及时发现和解决潜在的系统问题。负责设计和实施系统容灾和恢复计划,降低系统故障对业务的影响。负责研究和引入先进的运维技术,提高运维效率和系统可靠性。负责编写和维护系统运维手册和技术文档,保证团队知识共享和经验传承。任职资格:1.大学本科及以上学历。2.计算机、软件工程、通信工程、自动化、电子信息等相关专业背景者优先。3.3年以上SRE工程师或相关领域工作经验。4.熟悉Linux系统管理和常用工具,如Shell、Python等编程语言。5. 熟悉常见的监控系统、中间件和数据库,如Prometheus、Grafana、ES、Redis、Kafka、MySQL等。6.具有较强的系统分析和解决问题的能力,能够解决复杂的系统问题。7.有大型分布式、高并发、高负载、高可用系统设计和开发经验者优先。8.熟悉Kubernetes、Docker等容器化技术,有实际部署和运维经验者优先。9.参与过开源项目开发或对开源技术有浓厚兴趣者优先。10.具有较强的沟通和团队协作能力,能够与开发、测试和产品团队紧密合作。