元宝数据标注
8000-12000元/月
更新 2026-01-09 14:46:40
浏览 667
职位详情
数据标注/AI训练师
3-5年
多模态 · 评测 · 豆包 · Python · 大模型
岗位要求:
-具备算法、研发或数据分析相关背景者优先,需掌握Python或曾自行搭建过agent流程;
-具备英文文献阅读能力(可借助辅助工具)者优先;
岗位职责:
-评测集复现与优化:跟踪大模型最新评测方法与前沿Benchmark,探索新的评测维度与指标,结合公司实际需求对评测集进行定制化调整与改进,保障评测过程的可复现性与准确性。
-自动化评估系统构建:独立建设大模型评测体系与配套评测集,以自动化评估为核心,覆盖通用能力与特定场景能力,设计科学的指标体系与任务集合,确保评测的完整性与适用性。
-模型表现分析:定期开展多版本模型的效果评估与横向对比,输出详细的评测报告,定位模型优缺点,提供优化建议,支撑模型迭代路径的制定与决策推进。
-跨部门协同:与算法、产品及业务团队高效协作,深入理解应用场景需求,输出模型效果分析结果与评测策略,助力模型优化与实际业务落地。
-具备算法、研发或数据分析相关背景者优先,需掌握Python或曾自行搭建过agent流程;
-具备英文文献阅读能力(可借助辅助工具)者优先;
岗位职责:
-评测集复现与优化:跟踪大模型最新评测方法与前沿Benchmark,探索新的评测维度与指标,结合公司实际需求对评测集进行定制化调整与改进,保障评测过程的可复现性与准确性。
-自动化评估系统构建:独立建设大模型评测体系与配套评测集,以自动化评估为核心,覆盖通用能力与特定场景能力,设计科学的指标体系与任务集合,确保评测的完整性与适用性。
-模型表现分析:定期开展多版本模型的效果评估与横向对比,输出详细的评测报告,定位模型优缺点,提供优化建议,支撑模型迭代路径的制定与决策推进。
-跨部门协同:与算法、产品及业务团队高效协作,深入理解应用场景需求,输出模型效果分析结果与评测策略,助力模型优化与实际业务落地。
相似职位
很抱歉,暂无相似职位!