公司简介:《消费者报道》杂志社创建于1998年,是中国内地率先采用商品和服务对比测评、研究商品评价体系的专业机构,多年来专注并坚持在市场消费现象、行业服务及消费维权方面进行深入的研究、分析和应用,持续向公众传播科学消费与责任消费的理念,目前已形成全媒体、研究中心、数据中心三位一体的调研架构,为政府部门、社会组织、企业和消费者提供全面、科学、权威的调研和资讯服务。这里很纯粹,就是做事的地方——我们热衷于解决问题。正选数据中心是消费者报道旗下独立事业部。2018年起,团队吸收了来自广东省重点电子政务项目“粤省事”、“营商环境”的技术骨干,专注于研发面向各行业垂直领域的大数据、算法、应用软件产品,先后研发上线了产品质量监测与分析系统、企业信用风险模型管理系统、企业生产销售产品库等,在各领域已逐步实现常态化、主题化、智能化的数据应用场景。本次python爬虫工程师岗位为正选数据中心招聘岗位。岗位职责:1、负责分布式网络数据采集系统及数据库的设计与开发;2、设计数据采集策略和防屏蔽规则,解决封账号、封IP、验证码等技术问题;3、维护和优化已有数据采集服务;4、负责数据采集服务核心算法的策略优化研究,充分利用资源,提升网页抓取的效率和质量。6、与团队其他人员高效沟通合作完成团队目标;7、完成上级交办的其他工作任务。任职要求:1、大专及以上学历,2年及以上工作经验,计算机软件相关专业,具有扎实的操作系统、网络、数据库相关基础知识;2、熟练掌握python多进程、多线程、协程、网络编程;3、熟悉Linux操作系统,熟练使用常用命令;熟练掌握MySQL、MongDB、Redis开发经验者优先;4、精通网页抓取原理及技术、深度抓取、动态网页技术抓取、浏览器模拟抓取技术,从结构化的和非结构化的数据中获取信息;熟悉Scrapy、Pyppeteer、Selenium、playwright等爬虫框架/工具中的一种或多种;5、了解常用验证码识别技术,熟悉行为验证码识别、模拟登陆,熟悉各种反爬机制和解决措施;6、对经手的工作理解深入,有团队观念,具备独立解决问题的能力,善于学习提升。