职位描述:1、负责确保飞书IAM的产品、服务和系统在各种条件下都能保持稳定、可靠和高效的运行;通过制定和执行稳定性策略、监控系统性能、预防和解决故障,以及推动持续改进,保障业务的连续性和用户满意度;2、稳定性策略与规划:制定并完善领域的稳定性规划,确保与团队的业务目标和技术发展方向相一致,定义稳定性的关键指标和目标,并建立相应的监测和评估机制;3、系统监控与预警:建立和维护全面的系统监控体系,包括性能指标、错误日志、异常检测等,建立实时预警机制,确保在系统出现潜在问题或故障时能够及时通知相关团队;4、故障预防与解决:进行定期的系统风险评估和漏洞扫描,制定并实施预防措施,降低故障发生的概率,领导和协调故障应急响应团队,快速定位和解决系统故障,减少业务中断时间;5、性能优化与容量规划:分析系统性能数据,识别性能瓶颈,并提出优化方案和改进措施,负责系统的容量规划,确保资源能够满足业务增长的需求;6、团队协作与沟通:与开发、运维、测试等团队紧密合作,提供稳定性方面的技术支持和指导,定期组织稳定性相关的培训和分享会,提高团队的稳定性意识和技能水平;7、持续改进:总结故障处理经验和教训,推动流程优化和技术创新,提升整体稳定性水平,跟踪行业内的稳定性***实践,引入先进的技术和方法。职位要求:1、计算机科学、软件工程或相关领域的本科及以上学历;2、具有3年以上系统稳定性管理或相关领域的工作经验,具有大型分布式系统的设计、开发和运维经验者优先;3、精通系统架构、网络、数据库等相关技术,熟练掌握性能分析工具和监控系统的使用,具备一定的工程能力;4、具备出色的故障排查和解决问题的能力,能够在压力下迅速做出决策,具有良好的分析和归纳能力,能够从复杂的系统问题中找出根本原因;5、优秀的团队沟通和协作能力,能够有效地与不同部门的人员合作,具备良好的领导力和项目管理能力,能够推动稳定性工作的顺利开展;6、具有高度的责任心和敬业精神,对系统稳定性保障工作充满热情,能够承受工作压力,在紧急情况下保持冷静并有效应对。