数据采集与数据管理工程师
9000-13000元/月
更新 2025-12-14 10:30:43
浏览 259
职位详情
爬虫工程师
1-3年
Airflow · 爬虫 · python · Linux · Docker · 数据抓取 · 数据清洗 · Panda
我们诚邀具备丰富经验的数据爬取与数据治理工程师加入我们的大模型数据团队。参与构建高质量、结构化、合规的数据采集与治理体系,为大模型及下游智能应用提供关键数据支撑。
岗位职责:
1、承担大模型训练所需网络数据的采集工作,涵盖文本、网页等多类型内容;
2、构建高效且可扩展的网页解析系统与异步爬虫架构;
3、规划并落地数据清洗、内容筛选、质量评测等自动化治理流程;
4、协同模型研发、数据标注、运维等多个团队,推动数据闭环流转与应用。
岗位要求:
1、本科及以上学历,具有两年以上数据爬虫与数据治理相关工作经验;
2、精通Python编程,具备扎实的系统设计与工程落地能力;
3、掌握主流爬虫工具(如Scrapy、Playwright、Selenium、Requests等)及分布式爬虫实现技术;
4、熟悉Linux环境下的开发与部署流程,了解基础容器化技术(如Docker);
5、熟练运用常见数据处理组件(如Pandas、Spark、Airflow等);
6、具备百万级网页数据抓取经历或主导过大型数据治理项目者优先考虑。
岗位职责:
1、承担大模型训练所需网络数据的采集工作,涵盖文本、网页等多类型内容;
2、构建高效且可扩展的网页解析系统与异步爬虫架构;
3、规划并落地数据清洗、内容筛选、质量评测等自动化治理流程;
4、协同模型研发、数据标注、运维等多个团队,推动数据闭环流转与应用。
岗位要求:
1、本科及以上学历,具有两年以上数据爬虫与数据治理相关工作经验;
2、精通Python编程,具备扎实的系统设计与工程落地能力;
3、掌握主流爬虫工具(如Scrapy、Playwright、Selenium、Requests等)及分布式爬虫实现技术;
4、熟悉Linux环境下的开发与部署流程,了解基础容器化技术(如Docker);
5、熟练运用常见数据处理组件(如Pandas、Spark、Airflow等);
6、具备百万级网页数据抓取经历或主导过大型数据治理项目者优先考虑。
相似职位
很抱歉,暂无相似职位!