1. 负责互联网站、网页、链接的特征挖掘;
2. 提供分布式爬虫和数据采集系统的技术实现方案;
3. 设计和开发分布式网络爬虫程序;
4. 分析静态网页结构,解析网页数据,对数据进行过滤,去重,结构化处理;
5. 设计优化爬虫调度系统,优化调度策略。
【任职要求】
1. 本科以上,计算机/软件工程相关专业,两年以上爬虫经验;
2. 扎实的Java/Python基础,熟悉多线程编程环境,熟悉常见开源框架;
3. 熟悉前端技术,HTML,JavaScript,Ajax等;
4. 熟练使用正则表达式,精通网页数据提取;
5. 熟悉抓取原理及技术,熟悉Scrapy、Pyspider、nutch等主流爬虫框架使用;
6. 具有构建分布式爬虫系统的经验,具有海量高并发网页爬取项目经验;
7. 熟悉数据库操作、SQL语言与优化,了解ETL过程以及操作工具;
8. 熟悉大数据数据库者优先;
9. 喜欢技术钻研,具有较强的学习能力,有独立解决问题的能力;