UP简历 小U

+86 13800138000|your.email@example.com|北京

个人总结

资深数据工程师,专注于大模型数据清洗与语料库构建,具备深厚的文本处理、自然语言处理及数据质量优化经验。精通Python及相关数据科学库,熟练运用数据清洗工具与技术,致力于提升模型性能。成功构建百万级高质量中文百科语料库,有效将模型困惑度降低了8%,展现了卓越的数据洞察与问题解决能力。

工作经历

高级数据工程师

某知名AI科技公司

2021-07 - 2024-06
  • 主导并完成了百万级高质量中文百科语料库的构建与维护,通过自动化与人工审核相结合的方式,确保了语料的准确性、一致性和多样性,为公司核心大模型的训练提供了坚实基础。
  • 设计并实现了高效的数据清洗与预处理管道,集成了多种文本规范化、去重、去噪算法,将数据处理效率提升了30%,同时将无效数据比例从15%降低至5%以下。
  • 负责大模型训练语料的质量评估与优化工作,引入了Perplexity、BLEU等指标进行量化分析,通过持续迭代优化,成功使模型在特定任务上的困惑度(Perplexity)降低了8%
  • 开发并维护了基于Python的数据清洗工具集,包括正则表达式匹配、语义相似度分析、实体识别与链接等模块,有效提升了数据处理的自动化水平和准确率。
  • 与算法团队紧密协作,参与大模型训练效果的分析与改进,根据模型反馈调整数据清洗策略,实现了数据-模型迭代优化的闭环。
  • 指导初级数据工程师,分享数据清洗最佳实践和工具使用技巧,提升团队整体数据处理能力。

教育背景

清华大学

硕士 · 计算机科学与技术

2018-09 - 2021-07

技能专长

编程语言与框架

Python · Pandas · NumPy · Scikit-learn · TensorFlow

自然语言处理 (NLP)

文本清洗 · 分词 · 词向量 · 实体识别 · 语义分析

数据处理与质量

数据清洗 · 数据去重 · 数据规范化 · 数据标注 · 数据质量评估

数据库与大数据

MySQL · Elasticsearch · Hadoop · Spark

大模型优化

LLM数据预处理 · 语料库构建 · Perplexity评估 · 模型训练数据管理

热门进阶2026/3/16

大模型数据清洗范文(描述构建百万级高质量中文百科语料库,使模型困惑度(Perplexity)降低8%)

大模型数据清洗 AI人工智能 1-3年经验

本简历范文专为大模型数据清洗工程师设计,重点突出构建百万级高质量中文百科语料库的实战经验,以及通过数据清洗使模型困惑度(Perplexity)显著降低8%的卓越成果。适合希望在大模型数据质量优化领域展现专业能力的求职者。

#大模型数据清洗 #中文百科语料库 #模型困惑度 #Perplexity #数据清洗 #AI人工智能简历

核心亮点

百万级中文百科语料库构建经验
数据清洗与质量优化能力
模型困惑度(Perplexity)降低8%的量化成果
大模型数据处理与分析技能
语料库标注与评估

适用人群

本范文特别适合大模型数据清洗岗位的求职者参考学习, 通过具体的工作经历和项目经验展示,帮助您了解如何突出AI人工智能 行业的核心竞争力。

同样优秀的热门范文

热门专家
4分钟

虚拟人驱动专家简历范文(无标记动捕系统与面部表情迁移算法)

本简历范文专为虚拟人驱动专家设计,重点突出在无标记动捕系统与面部表情迁移算法方面的专业能力,旨在帮助求职者展示如何实现超写实虚拟人直播60FPS流畅度,并提升直播转化率。

热门专家
4分钟

出海数据隐私合规官简历范文(本地化主权云存储与隐私保护算法)

本简历范文专为出海数据隐私合规官设计,重点突出候选人在本地化主权云存储与隐私保护算法方面的专业能力,旨在解决跨境业务中的隐私安全审查风险,并支撑业务在全球15个法域的合规运营。范文强调了在复杂国际数据法规环境下,如何通过技术手段实现数据合规与业务拓展的平衡。

热门专家
4分钟

MR 沉浸式剧本架构师简历范文(虚实空间锚定与同步状态机设计)

本MR沉浸式剧本架构师简历范文,专注于虚实空间锚定与同步状态机设计,旨在解决物理空间复用率低痛点,实现多人MR剧本杀场景的创新与客流增长。适合有MR剧本设计、空间计算、状态机编程经验的专业人士。

热门专家
4分钟

短剧 AI 字幕分发专家简历范文(生成式 AI 字幕语义对齐与海外社群自动分发)

本简历范文专为短剧AI字幕分发专家设计,重点突出利用生成式AI进行字幕语义对齐,并实现海外社群自动分发的能力。旨在帮助求职者展示如何通过技术创新,大幅降低短剧出海制作成本并提升海外播放量。

热门专家
4分钟

退役电池残值评估算法师简历范文(电化学阻抗谱分析 SOH 健康度)

本简历范文专为退役电池残值评估算法师设计,重点突出利用电化学阻抗谱分析(EIS)进行电池SOH(健康度)评估的能力,旨在实现电池梯次利用的精准分选,并有效提升残值回收率20%以上。适合具备电池性能评估、算法开发及数据分析经验的专业人士。

热门专家
4分钟

产品碳足迹 LCA 分析师简历范文(全生命周期碳溯源模型)

本产品碳足迹 LCA 分析师简历范文,专为具备构建全生命周期碳溯源模型经验、擅长识别供应链高排放环节的专业人士设计。范文突出其在协助新能源车通过欧盟CBAM审核方面的成功案例,是您展示核心竞争力的理想选择。

热门专家
4分钟

氢能管道安全评估员简历范文(分布式光纤捕捉氢脆微裂纹信号)

本简历范文专为氢能管道安全评估员设计,重点突出利用分布式光纤技术捕捉氢脆微裂纹信号的能力,实现管网泄露秒级定位,有效解决长输氢气管道运维盲区。适合具备相关技术背景和经验的专业人士。

热门专家
4分钟

虚拟电厂负荷预测专家简历范文(分布式能源博弈算法与多源气象融合预测)

本简历范文专为虚拟电厂负荷预测专家设计,重点突出候选人在分布式能源博弈算法与多源气象融合预测方面的核心能力。通过此范文,您将学习如何展现解决分布式光伏出力波动痛点、降低企业购电成本15%的实战经验,助力您在AI能源领域脱颖而出。

简历写作

专业指导,提升简历质量

参考范文,制作您的专业简历

借鉴优秀范文的写作技巧,选择合适模板,使用AI智能填写功能,快速完成简历制作