高级爬虫
1.7-1.8万元/月
更新 2025-10-23 11:02:46
浏览 495
职位详情
爬虫工程师
5-10年
【职位描述】
1.负责设计开发针对主流海外电商平台的大规模数据采集系统,支持商品信息、价格监控、竞品分析等业务需求。
2.构建和维护分布式浏览器集群,实现千级并发的稳定数据抓取,处理复杂的SPA应用和动态内容渲染。
3.研究海外电商平台的反爬机制(如Cloudflare、PerimeterX、DataDome),制定针对性的反反爬策略,包括设备指纹伪造、TLS指纹处理、行为模拟等。
4.确保数据采集符合GDPR、CCPA等国际数据保护法规,处理多语言、多货币、多时区的复杂数据场景。
5.优化浏览器资源使用,实现成本可控的大规模部署,包括资源池管理、任务调度优化、异常恢复机制等。
【任职要求】
1.3年以上海外电商爬虫经验,具备至少5个主流海外电商平台的数据采集项目经验,深度了解各平台的技术架构和反爬策略。
2.大规模浏览器自动化经验:有管理500+浏览器实例的实战经验,熟练掌握Playwright、Puppeteer、SeleniumGrid等工具的集群化部署。
3.精通现代反爬对抗技术:浏览器指纹伪造(Canvas、WebGL、Audio等)、TLS/JA3指纹处理和规避、验证码自动化处理(reCAPTCHA、hCaptcha、Funcaptcha)、WAF绕过策略(Cloudflare5s盾、BotFightMode)。
4.编程语言:精通Python,熟悉JavaScript/TypeScript(用于浏览器脚本开发)。
5.框架和工具:熟练使用浏览器自动化框架(Playwright、Puppeteer、Selenium4.0+)、代理管理(住宅代理、数据中心代理轮换策略)、容器化部署(Docker、Kubernetes环境下的浏览器集群管理)。
6.分布式系统经验:熟悉Redis、RabbitMQ、Kafka等中间件,有构建分布式任务调度系统经验。
7.独立完成过至少3个海外电商大型项目,单项目日均数据量100万+条,涉及多平台、多地区的复杂数据采集需求。
8.成本控制能力:有控制单条数据采集成本的实战经验,熟悉云服务器成本优化策略。
【加分项】
1.移动端数据采集:Android/iOSApp数据采集经验,熟悉Frida、Xposed等Hook技术。
2.协议层面突破:GraphQLAPI逆向分析、gRPC/protobuf协议解析、WebSocket实时数据采集。
3.AI辅助技术:机器学习模型应用于验证码识别、异常检测和自动化问题诊断、智能化反爬策略调整。
4.海外电商业务理解:熟悉跨境电商运营模式、了解各平台的商业规则和数据价值点。
1.负责设计开发针对主流海外电商平台的大规模数据采集系统,支持商品信息、价格监控、竞品分析等业务需求。
2.构建和维护分布式浏览器集群,实现千级并发的稳定数据抓取,处理复杂的SPA应用和动态内容渲染。
3.研究海外电商平台的反爬机制(如Cloudflare、PerimeterX、DataDome),制定针对性的反反爬策略,包括设备指纹伪造、TLS指纹处理、行为模拟等。
4.确保数据采集符合GDPR、CCPA等国际数据保护法规,处理多语言、多货币、多时区的复杂数据场景。
5.优化浏览器资源使用,实现成本可控的大规模部署,包括资源池管理、任务调度优化、异常恢复机制等。
【任职要求】
1.3年以上海外电商爬虫经验,具备至少5个主流海外电商平台的数据采集项目经验,深度了解各平台的技术架构和反爬策略。
2.大规模浏览器自动化经验:有管理500+浏览器实例的实战经验,熟练掌握Playwright、Puppeteer、SeleniumGrid等工具的集群化部署。
3.精通现代反爬对抗技术:浏览器指纹伪造(Canvas、WebGL、Audio等)、TLS/JA3指纹处理和规避、验证码自动化处理(reCAPTCHA、hCaptcha、Funcaptcha)、WAF绕过策略(Cloudflare5s盾、BotFightMode)。
4.编程语言:精通Python,熟悉JavaScript/TypeScript(用于浏览器脚本开发)。
5.框架和工具:熟练使用浏览器自动化框架(Playwright、Puppeteer、Selenium4.0+)、代理管理(住宅代理、数据中心代理轮换策略)、容器化部署(Docker、Kubernetes环境下的浏览器集群管理)。
6.分布式系统经验:熟悉Redis、RabbitMQ、Kafka等中间件,有构建分布式任务调度系统经验。
7.独立完成过至少3个海外电商大型项目,单项目日均数据量100万+条,涉及多平台、多地区的复杂数据采集需求。
8.成本控制能力:有控制单条数据采集成本的实战经验,熟悉云服务器成本优化策略。
【加分项】
1.移动端数据采集:Android/iOSApp数据采集经验,熟悉Frida、Xposed等Hook技术。
2.协议层面突破:GraphQLAPI逆向分析、gRPC/protobuf协议解析、WebSocket实时数据采集。
3.AI辅助技术:机器学习模型应用于验证码识别、异常检测和自动化问题诊断、智能化反爬策略调整。
4.海外电商业务理解:熟悉跨境电商运营模式、了解各平台的商业规则和数据价值点。
相似职位