职位描述:1、保障全公司包括抖音、国际化短视频、广告等业务的数据稳定性,提升数据平台服务产品质量,保障业务的持续可用;2、基于运维经验、工具、平台对线上事故快速响应提升处理效率,同时优化运维体系,推动提升服务可靠性、可扩展性,保障系统SLA,同时推进运维自动化提效;3、通过持续的全方位运营,包括运维规范及***实践、监控及可用性指标、历史事故等,为数据高可用架构设计和选型提供指导,同时能够系统性排查架构风险隐患,推进改进项落地;4、参与大数据运维平台的研发、自动化建设与持续迭代,引导产品的运维模式向数字化,智能化方向发展演进。职位要求:1、计算机相关专业,本科及以上学历;2、3年及以上SRE运维经验,熟悉运维体系建设与稳定性保障;3、熟悉Linux、网络等系统运维技能,具备运维问题分析、应急解决以及性能调优等能力;4、熟悉至少一门编程语言,包括但不限于:Shell、Python、Java、Scala、PHP、Go等;5、具备良好的沟通表达、团队协作以及自驱能力,促进跨团队的合作;6、有大数据稳定性问题排查经验,具备清晰排查思路,具备快速定位问题能力加分。