news 2026/6/14 0:12:45

day23 常见特征筛选算法

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
day23 常见特征筛选算法

1.方差筛选 是最基础的过滤法:计算特征的方差,剔除方差极低的特征(这类特征数值变化小,对样本区分度弱)。优点是计算极快,缺点是只看特征自身,不考虑和目标的关联。
2.皮尔逊相关系数筛选 属于过滤法:计算特征与目标变量的皮尔逊相关系数(衡量线性相关程度),保留相关系数绝对值高的特征。
优点是直观易懂,缺点仅能捕捉线性关联,对非线性关系无效。
3.Lasso 筛选 属于嵌入法:在线性模型(如线性回归、逻辑回归)中加入L1正则化,迫使不重要的特征系数收缩至 0,最终保留系数非0的特征。既能完成特征筛选,也能同步训练模型,适合高维数据。
树模型重要性 属于嵌入法:基于决策树/随机森林/XGBoost等树模型,通过“特征对节点分裂的贡献度”计算重要性,保留重要4性高的特征。优点是能捕捉非线性关联,缺点是易受高基数特征干扰。
5.SHAP 重要性 是树模型重要性的进阶版:基于 SHAP 值(解释模型预测的统一框架)计算特征重要性,不仅能体现特征的整体影响程度,还能展示特征对预测结果的正负方向,解释性更强。
6.递归特征消除(RFE) 属于包裹法:反复训练指定模型,每次移除模型判定的“最不重要特征”,直到保留预设数量的特征。优点是直接以模型性能为筛选依据,精度较高;缺点是计算成本高(需多次训练模型)@浙大疏锦行

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/6/12 21:32:22

Day 34 模块和库的导入

知识点: 1.导入官方库的三种手段 2.导入自定义库/模块的方式 3.导入库/模块的核心逻辑:找到根目录 使用案例 场景1: main.py和circle.py都在同一目录 场景2: main.py和circle.py都在根目录的子目录model/下 场景3: main.py在根目录,circ…

作者头像 李华
网站建设 2026/6/14 8:53:49

CodeSearchNet:一个大规模代码-文档检索数据集的构建、应用与挑战

本文由「大千AI助手」原创发布,专注用真话讲AI,回归技术本质。拒绝神话或妖魔化。搜索「大千AI助手」关注我,一起撕掉过度包装,学习真实的AI技术! 1 引言 在人工智能与软件工程交叉的“代码智能”领域,一个…

作者头像 李华
网站建设 2026/6/14 0:24:34

企业级部署:奇安信天擎在金融行业的实战案例

快速体验 打开 InsCode(快马)平台 https://www.inscode.net输入框内输入如下内容: 设计一个金融行业专用的奇安信天擎部署方案。包括网络架构图(DMZ、内网分区)、策略配置模板(如文件监控、进程控制、漏洞防护)、应急…

作者头像 李华
网站建设 2026/6/12 9:39:39

【牛客周赛 107】E 题【小苯的刷怪笼】题解

题目链接 题目大意 给定三个正整数 n,a,kn, a, kn,a,k,其中: nnn 为怪物的数量,nnn 个怪物站成一排,从左到右编号 111 到 nnn;aaa 为 nnn 个怪物的血量和,且每个怪物的血量都是正数;kkk 为小苯…

作者头像 李华
网站建设 2026/6/11 21:31:20

5大技巧让DownKyi成为你的B站视频下载神器

5大技巧让DownKyi成为你的B站视频下载神器 【免费下载链接】downkyi 哔哩下载姬downkyi,哔哩哔哩网站视频下载工具,支持批量下载,支持8K、HDR、杜比视界,提供工具箱(音视频提取、去水印等)。 项目地址: h…

作者头像 李华