岗位职责: 1. 系统架构维护与优化 2. 负责维护基于 RabbitMQ、Kafka 的消息中间件集群,保障高可用性、低延迟和高吞吐量,处理消息堆积、故障恢复等问题。 3. 管理 Airflow 任务调度平台,优化DAG任务性能,监控任务执行状态,保障数据管道的稳定性。 4. 维护 Elasticsearch 集群,包括索引管理、性能调优、分片策略优化及日志检索系统的稳定性。 5. 负责 ClickHouse 分布式数据库的部署、性能优化、数据同步及容灾备份,支撑实时数据分析场景。 6. 容器化与云原生技术栈 7. 基于 Docker 和 Kubernetes(K8s) 搭建和维护容器化平台,优化资源调度策略,保障微服务的高可用性。 8. 设计并实现CI/CD流水线,推动自动化部署与灰度发布流程。 9. 链路监控与故障处理 10. 建立全链路监控体系(如Prometheus+Grafana),覆盖从消息队列、数据处理到存储的全流程,实现异常告警与快速定位。 11. 处理生产环境突发故障,制定应急预案并推动系统健壮性改进。 12. 自动化与标准化 13. 开发运维脚本(Python/Shell等),推动基础设施即代码(IaC)实践,使用Ansible/Terraform等工具提升运维效率。 14. 编写运维文档和技术方案,推动团队标准化流程。 15. 跨团队协作:协同开发、测试、数据团队,优化系统架构设计,解决技术瓶颈问题。 任职要求:1. 计算机相关专业本科及以上学历,3年以上运维/DevOps经验。 2. 熟悉Linux系统管理、网络原理及常见服务(Nginx/HAProxy等)。 3. 消息中间件:精通RabbitMQ/Kafka集群部署、监控及性能调优,熟悉消息可靠性保障机制。4. 数据平台:熟悉Airflow任务编排、Elasticsearch索引优化及ClickHouse分布式架构。 5. 容器化:熟练掌握Docker及K8s生态(Helm/Operator等),有生产环境集群管理经验。6. 自动化工具:熟悉Ansible/Terraform/Prometheus等工具,具备脚本开发能力。