【岗位职责】 方案设计与优化:积极参与业务方案的设计讨论,针对服务响应延迟和性能瓶颈提出并实施有效的改进措施,以提升服务的稳定性和可用性。 故障处理与预防:承担关键服务紧急故障的诊断与解决工作,利用专业知识和技术手段进行问题根因分析,制定并执行防止故障再次发生的策略。 容量规划与性能调优:主导服务的容量规划,通过深入的软件性能分析,识别性能瓶颈并实施优化,确保系统能够高效支持业务增长。 架构设计:参与大规模分布式系统的软件架构设计,为公司的技术发展方向提供有价值的输入。 自动化与智能化探索:推动运维自动化和智能化的技术研究与实践,持续寻找提高效率和减少人为错误的方法。 文档编写与团队协作:撰写详细的运维和技术文档,与其他部门紧密合作,完成上级指派的其他相关任务。 【任职要求】 工作经验:至少2年以上在运维开发领域的实战经验,有带领团队或独立负责重要项目的经验者优先。 技术知识:对Linux系统原理(如进程管理、文件系统、内存管理等)、网络协议(TCP/IP, HTTP等)和存储技术有深厚的理解。 编程技能:熟练掌握Python语言,具备丰富的Linux系统管理和性能优化经验;熟悉Docker容器化技术和Kubernetes集群管理。 监控工具:熟悉Prometheus、Grafana等开源监控报警系统的配置和使用 全栈开发能力:熟悉Django、DRF(Django REST Framework)、Celery用于后端开发,以及Vue.js用于前端界面开发,能够独立完成Web应用的前后端开发工作。 软技能:具备良好的沟通能力和团队合作精神,能够在快节奏环境中有效工作,对新技术保持好奇心和学习热情。