news 2026/5/27 18:08:07

038、标注数据质量差、类别不均衡?数据清洗、重采样与合成数据补充方案

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
038、标注数据质量差、类别不均衡?数据清洗、重采样与合成数据补充方案

038、标注数据质量差、类别不均衡?数据清洗、重采样与合成数据补充方案

去年秋天,我在一个工业质检项目上栽了个大跟头。客户给了一万张PCB板缺陷图像,标注文件里“焊点虚焊”类目下只有87个框,“划痕”类目下却有四千多个。模型训练完,虚焊检测的召回率只有可怜的12%,现场误报率却飙到40%以上。我盯着混淆矩阵看了半天,发现模型压根没学会“虚焊”长什么样——它只是学会了把所有“看起来像缺陷”的东西都判成划痕。后来我花了整整两周做数据清洗和重采样,才把召回率拉到78%。今天这篇笔记,就把那两周踩过的坑和总结出的套路,原原本本写下来。

一、标注数据质量差:那些让你怀疑人生的“脏数据”

先别急着谈算法,数据清洗是第一步,也是最容易被忽视的一步。我见过太多人拿到数据集直接开训,结果模型在验证集上表现不错,一到现场就崩。原因很简单:标注数据里藏着大量“毒药”。

标注错误是最常见的毒药。比如一张图像里明明有三个目标,标注框只框了两个;或者框的位置偏了半个身位;更离谱的是类别标错——把“正常”标成“缺陷”,把“A类缺陷”标成“B类缺陷”。这些错误会让模型学到错误的映射关系。我的做法是:先写一个简单的可视化脚本,把标注框画在原图上,随机抽500张人工过一遍。别嫌麻烦,这一步能筛掉至少30%的明显错误。代码里我习惯这样写:

# 这里踩过坑:直接读json标注,没检查坐标是否越界# 别这样写:for an
版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/5/27 18:08:06

【漏洞复现剖析】ActiveMQ CVE-2015-5254:从JMS消息注入到RCE的实战推演

1. ActiveMQ与CVE-2015-5254漏洞背景 消息队列在现代分布式系统中扮演着重要角色,而Apache ActiveMQ作为老牌开源消息中间件,广泛应用于企业级异步通信场景。2015年曝光的CVE-2015-5254漏洞之所以危险,在于它打破了消息队列"数据管道&qu…

作者头像 李华
网站建设 2026/5/27 18:07:31

从URL词法分析到DOM指纹:构建多层欺诈检测系统的实战解析

1. 项目概述:一次成功的欺诈防御实战复盘今天想和大家深入聊聊一个我最近研究得比较透的案例,它完美诠释了现代自动化安全系统如何与社区智慧结合,在关键时刻力挽狂澜。事情发生在2025年2月的一个周四清晨,一个看似普通的能源交易…

作者头像 李华
网站建设 2026/5/27 17:57:31

PDF元数据管理:深度解析PDF补丁丁的文档信息处理技术

PDF元数据管理:深度解析PDF补丁丁的文档信息处理技术 【免费下载链接】PDFPatcher PDF补丁丁——PDF工具箱,可以编辑书签、剪裁旋转页面、解除限制、提取或合并文档,探查文档结构,提取图片、转成图片等等 项目地址: https://git…

作者头像 李华
网站建设 2026/5/27 17:56:59

基于Tauri构建跨Git Worktree的AI编程助手桌面应用

1. 项目概述:一个桌面应用如何解决多分支AI编程的混乱如果你和我一样,日常开发工作流重度依赖git worktree来并行处理多个功能分支或Bug修复,同时又热衷于使用各类AI编程助手(比如Cursor、Claude Code、GitHub Copilot Chat&#…

作者头像 李华
网站建设 2026/5/27 17:55:01

LaWGPT法律大模型实战指南:从零部署到专业应用的完整方案

LaWGPT法律大模型实战指南:从零部署到专业应用的完整方案 【免费下载链接】LaWGPT 🎉 Repo for LaWGPT, Chinese-Llama tuned with Chinese Legal knowledge. 基于中文法律知识的大语言模型 项目地址: https://gitcode.com/gh_mirrors/la/LaWGPT …

作者头像 李华