高级数据采集工程师
3-6万元/月
更新 2025-10-30 10:53:35
浏览 364
职位详情
爬虫工程师
5-10年
爬虫 · 数据清洗 · Python
岗位职责:
*负责从社交媒体类APP及WEB端平台(如抖音、小红书等)采集数据,完成数据清洗、结构化转换与入库操作,并持续维护和优化爬虫系统的稳定运行。
*深入分析主流平台反爬机制,具备实际突破复杂防护策略的能力,涵盖验证码识别、加密算法还原、JS混淆解析等技术手段。
*负责爬虫系统的架构设计、编码开发、迭代升级与重构工作,支持单机及分布式部署,提升抓取效率与系统鲁棒性。
*对获取的数据进行深度处理与管理,熟练运用正则表达式、XPath、CSS选择器、BeautifulSoup等工具实现精准信息提取,保障数据质量。
*实现自动化采集流程控制,综合运用APP逆向、浏览器模拟等技术手段,提升数据抓取的覆盖率与执行效率。
*编写规范的技术文档,为团队成员提供技术支持与协作支撑,确保项目的可维护性和扩展性。
任职要求:
*计算机科学、软件工程或相关专业本科及以上学历。
*精通Python编程,同时掌握Node.js、Java等至少一种其他语言的实际应用。
*熟练使用主流爬虫框架(如Scrapy、BeautifulSoup、Selenium等),有丰富的开发与运维实践经验。
*具备APP逆向分析、浏览器自动化采集、JS逆向等相关技术能力,熟悉常用抓包与逆向工具(如Apktool、dex2jar、JD-GUI、Frida、IDA等)。
*了解各类反爬应对方案,包括IP限流、验证码验证、滑动校验、账号封禁等机制,并具备实际解决经验。
*熟练掌握信息抽取技术,如正则表达式、XPath、CSS选择器、BeautifulSoup等,能编写高准确率的匹配规则。
*熟悉MySQL、MongoDB、Redis等数据库的使用与调优,具备实际项目中的数据存储与查询优化经验。
*掌握大规模数据采集全流程技术,包括清洗、去重、分类等环节,具备有效识别异常数据和过滤无效内容的能力。
*具备良好的沟通意识和团队协作能力,能与产品、运维等多部门协同推进项目落地,准确理解并响应业务需求。
*负责从社交媒体类APP及WEB端平台(如抖音、小红书等)采集数据,完成数据清洗、结构化转换与入库操作,并持续维护和优化爬虫系统的稳定运行。
*深入分析主流平台反爬机制,具备实际突破复杂防护策略的能力,涵盖验证码识别、加密算法还原、JS混淆解析等技术手段。
*负责爬虫系统的架构设计、编码开发、迭代升级与重构工作,支持单机及分布式部署,提升抓取效率与系统鲁棒性。
*对获取的数据进行深度处理与管理,熟练运用正则表达式、XPath、CSS选择器、BeautifulSoup等工具实现精准信息提取,保障数据质量。
*实现自动化采集流程控制,综合运用APP逆向、浏览器模拟等技术手段,提升数据抓取的覆盖率与执行效率。
*编写规范的技术文档,为团队成员提供技术支持与协作支撑,确保项目的可维护性和扩展性。
任职要求:
*计算机科学、软件工程或相关专业本科及以上学历。
*精通Python编程,同时掌握Node.js、Java等至少一种其他语言的实际应用。
*熟练使用主流爬虫框架(如Scrapy、BeautifulSoup、Selenium等),有丰富的开发与运维实践经验。
*具备APP逆向分析、浏览器自动化采集、JS逆向等相关技术能力,熟悉常用抓包与逆向工具(如Apktool、dex2jar、JD-GUI、Frida、IDA等)。
*了解各类反爬应对方案,包括IP限流、验证码验证、滑动校验、账号封禁等机制,并具备实际解决经验。
*熟练掌握信息抽取技术,如正则表达式、XPath、CSS选择器、BeautifulSoup等,能编写高准确率的匹配规则。
*熟悉MySQL、MongoDB、Redis等数据库的使用与调优,具备实际项目中的数据存储与查询优化经验。
*掌握大规模数据采集全流程技术,包括清洗、去重、分类等环节,具备有效识别异常数据和过滤无效内容的能力。
*具备良好的沟通意识和团队协作能力,能与产品、运维等多部门协同推进项目落地,准确理解并响应业务需求。
相似职位