职位描述:
1、设计和开发分布式网络爬虫系统,进行多平台信息抓取和分析工作。2、负责完成网站数据采集爬取、解析提取、清洗入库等数据生产工作。3、设计爬虫策略和防屏蔽规则,提升网页抓取的效率和质量。4、研究各种网站、网页、链接的形态,总结其特点和规律。5、保障爬虫系统稳定高效运行、实时、增量、稳定。6、有爬虫日志开发、运维经验 任职资格:1、具有本科以及以上学历,计算机相关专业,有2年以上的网络爬虫工作经验。2、优良的编程习惯,对算法设计和数据结构有深刻理解,擅长程序优化。3、精通Python/C++/Java/php四种编程语言中的至少一种,Python优先。4、熟悉MySQL/Redis/MongoDB中至少一种数据库。5、掌握一种或多种爬虫框架,掌握网络爬虫原理,有网页抓取、网页解析、网页信息抽取、网页结构分析工作经验。6、熟悉Selenium2,精通正则表达式语法、掌握XPath或其他匹配方法,从结构化的和非结构化的数据中获取信息。7、熟悉Linux开发及使用环境。 举报
1、设计和开发分布式网络爬虫系统,进行多平台信息抓取和分析工作。2、负责完成网站数据采集爬取、解析提取、清洗入库等数据生产工作。3、设计爬虫策略和防屏蔽规则,提升网页抓取的效率和质量。4、研究各种网站、网页、链接的形态,总结其特点和规律。5、保障爬虫系统稳定高效运行、实时、增量、稳定。6、有爬虫日志开发、运维经验 任职资格:1、具有本科以及以上学历,计算机相关专业,有2年以上的网络爬虫工作经验。2、优良的编程习惯,对算法设计和数据结构有深刻理解,擅长程序优化。3、精通Python/C++/Java/php四种编程语言中的至少一种,Python优先。4、熟悉MySQL/Redis/MongoDB中至少一种数据库。5、掌握一种或多种爬虫框架,掌握网络爬虫原理,有网页抓取、网页解析、网页信息抽取、网页结构分析工作经验。6、熟悉Selenium2,精通正则表达式语法、掌握XPath或其他匹配方法,从结构化的和非结构化的数据中获取信息。7、熟悉Linux开发及使用环境。 举报
- 你可能感兴趣的职位
- 最近浏览记录
-
10-30万/年
-
10-30万/年
-
5-7千/月
-
10-30万/年
-
5-7千/月
-
15-24万/年
-
12-15万/年
-
0.4-5万/月
-
¥面议
-
¥面议
- 公司性质:私营企业
- 所属行业:综合单位
- 所在地区:北京-海淀区
联系方式
- 联系人:HR
- 手机:会员登录后才可查看
- 邮箱:会员登录后才可查看
- 邮政编码:
工作地址
- 地址:北京市海淀区东北旺西路8号中关村软件园5号楼汉王大厦1-125
