news 2026/5/27 1:03:11

使用PCA、t-SNE和UMAP进行数据降维并应用贝叶斯分类器

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
使用PCA、t-SNE和UMAP进行数据降维并应用贝叶斯分类器

#t-SNE #UMAP #PCA #数据降维 #贝叶斯分类器 #多分类 1 分别利用PCA、t-SNE、UMAP对数据进行降维。 2 利用Bayesian分类器对降维后的数据进行训练、预测。 3 计算结果的混淆矩阵,对比请看图。 (MATLAB 代码+注释)

在数据科学中,降维技术是处理高维数据的重要手段,它可以帮助我们更好地理解数据的结构,同时减少计算复杂度。本文将介绍三种常见的降维技术:PCA(主成分分析)、t-SNE(t-分布随机邻域嵌入)和UMAP(均匀流形近邻投影),并使用贝叶斯分类器对降维后的数据进行分类。最后,通过混淆矩阵来比较不同降维方法的效果。

1. 数据降维
PCA(主成分分析)

PCA是一种线性降维技术,它通过找到数据的主要成分来降低数据的维度。PCA的目标是保留数据中的最大方差。

MATLAB代码:

% 加载数据 load fisheriris; X = meas; y = species; % 标准化数据 X_normalized = normalize(X); % 应用PCA降维到二维 [coeff,score,latent] = pca(X_normalized); reduced_data_pca = score(:,1:2); % 可视化PCA结果 figure; gscatter(reduced_data_pca(:,1), reduced_data_pca(:,2), y, [], [], [], 'filled'); title('PCA降维后的数据分布');
t-SNE

t-SNE是一种非线性降维技术,特别适用于高维数据的可视化。它能够很好地保留数据的局部结构。

MATLAB代码:

% 应用t-SNE降维到二维 tsneModel = tsne(X_normalized, 'NumDimensions', 2); reduced_data_tsne = tsneModel; % 可视化t-SNE结果 figure; gscatter(reduced_data_tsne(:,1), reduced_data_tsne(:,2), y, [], [], [], 'filled'); title('t-SNE降维后的数据分布');
UMAP

UMAP是一种最近提出的降维技术,它结合了t-SNE和非线性降维的优点,能够更好地保留数据的全局和局部结构。

MATLAB代码:

% 应用UMAP降维到二维 umapModel = umap.fit(X_normalized); reduced_data_umap = umapModel.transform(X_normalized); % 可视化UMAP结果 figure; gscatter(reduced_data_umap(:,1), reduced_data_umap(:,2), y, [], [], [], 'filled'); title('UMAP降维后的数据分布');
2. 贝叶斯分类器

贝叶斯分类器是一种基于概率的分类方法。在本例中,我们将使用MATLAB中的fitcnb函数来训练一个朴素贝叶斯分类器。

MATLAB代码:

% 划分训练集和测试集 cv = cvpartition(size(y,1), 'Holdout', 0.3); idx_train = cv.training; idx_test = cv.test; % 对每种降维后的数据进行分类 dims = [reduced_data_pca, reduced_data_tsne, reduced_data_umap]; titles = {'PCA', 't-SNE', 'UMAP'}; for i = 1:3 X_train = dims{i}(idx_train,:); y_train = y(idx_train,:); X_test = dims{i}(idx_test,:); y_test = y(idx_test,:); % 训练贝叶斯分类器 model = fitcnb(X_train, y_train); % 预测 y_pred = predict(model, X_test); % 计算混淆矩阵 C = confusionmat(y_test, y_pred); acc = sum(diag(C)) / sum(C(:)) * 100; figure; plotconfusion(C); title(sprintf('%s分类混淆矩阵(准确率=%.2f%%)', titles{i}, acc)); end
3. 结果分析

通过上述步骤,我们可以比较PCA、t-SNE和UMAP在降维后的分类效果。从混淆矩阵可以看出,每种降维方法在分类任务中的表现。尽管PCA是一种线性方法,但在某些情况下,它可能会表现得比非线性方法更好,这取决于数据的分布。

需要注意的是,降维后的结果可能会丢失一些信息,因此在实际应用中,需要根据具体数据和任务需求选择合适的降维方法。此外,贝叶斯分类器的性能也受到降维结果的影响,因此降维和分类器的选择需要综合考虑。

综上所述,本文通过PCA、t-SNE和UMAP三种降维方法对数据进行降维,再通过贝叶斯分类器进行分类,最终通过混淆矩阵比较了不同降维方法的效果。希望这篇博文能为你的数据降维和分类任务提供一些参考。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/5/26 5:34:02

C#AI系列(3):31mb单文件exe实现姿态检测-将Yolo装进口袋

一、环境准备Nuget拉取 Microsoft.ML.OnnxRuntime.Managed 和 YoloDotNet,库内包含了完整所需的其他如Skia、OnnxRuntime等Native库文件。其中:Microsoft.ML.OnnxRuntime.Managed: ONNX Runtime 是跨平台机器学习推理加速器,可兼容 PyTorch、…

作者头像 李华
网站建设 2026/5/26 5:35:55

DETR3D:基于 3D-to-2D 查询的多视图 3D 目标检测框架

在低成本自动驾驶系统中,基于视觉信息的 3D 目标检测是一项长期存在的挑战性任务。与依赖激光雷达(LiDAR)点云的 3D 目标检测方法不同,基于相机的 3D 目标检测需仅从 RGB 图像包含的 2D 信息中生成 3D 边界框预测,该问…

作者头像 李华
网站建设 2026/5/26 1:23:16

LX洛雪音源:全网最新音乐资源一站式解决方案

LX洛雪音源:全网最新音乐资源一站式解决方案 【免费下载链接】LXMusic音源 lxmusic(洛雪音乐)全网最新最全音源 项目地址: https://gitcode.com/guoyue2010/lxmusic- 想要畅享海量音乐却苦于找不到优质音源?LX洛雪音源为你…

作者头像 李华
网站建设 2026/5/25 18:32:03

从零到一:CVAT计算机视觉标注工具全面入门指南

从零到一:CVAT计算机视觉标注工具全面入门指南 【免费下载链接】cvat Annotate better with CVAT, the industry-leading data engine for machine learning. Used and trusted by teams at any scale, for data of any scale. 项目地址: https://gitcode.com/gh_…

作者头像 李华
网站建设 2026/5/26 5:33:12

MiMo-V2-Flash

先上代码,后边的是ai介绍的 感兴趣可以看 目前2周免费,使劲噔,不要设置奇怪的prompt,会提示说高危险的不让访问😂 官方地址:https://github.com/XiaomiMiMo/MiMo-V2-Flash 平台地址:https://platform.xiaomimimo.com/#/docs/welcome 申请apt-key的地…

作者头像 李华
网站建设 2026/5/26 6:33:21

实现 Promise A+ 规范的 Promise

前言之前找工作的时候凭感觉做了一个实现 Promise A 规范的 Promise的练习,最近在准备新的工作机会,又看到了这个面试题。我感觉之前的实现有很大优化空间。之前用前次调用结果作为标记来实现 Promise 多次 resolve 和 reject 触发的正确逻辑&#xff0c…

作者头像 李华