文章目录
- 课程1.1 服务器与虚拟化基础(AI运维方向)
- 一、AI服务器硬件体系(招聘核心考点:硬件选型与故障排查)
- 1. 通用计算与基础硬件
- 2. AI加速计算硬件(重点掌握)
- 二、主流虚拟化技术栈(招聘核心考点:虚拟化平台部署与运维)
- 1. 虚拟化核心原理
- 2. 两大主流虚拟化方案
- (1)VMware vSphere 企业级商业虚拟化
- (2)KVM 开源虚拟化(AI场景主流方案)
- 三、裸金属 vs 虚拟化 vs 容器(招聘核心考点:AI部署架构选型)
- 四、GPU虚拟化核心技术(重点强化,招聘核心考点:GPU资源池建设与调优)
- 1. GPU直通(GPU Passthrough)
- 技术原理
- 部署全流程(KVM场景)
- 核心要点
- 2. vGPU(虚拟GPU)
- 技术原理
- 主流技术体系
- 核心要点
- 3. GPU直通 vs vGPU 企业选型对比
- 备注(企业招聘匹配说明)
课程1.1 服务器与虚拟化基础(AI运维方向)
课程定位:对标企业AI运维工程师、GPU集群运维、云原生AI运维岗位招聘要求,覆盖硬件选型、虚拟化部署、架构选型三大核心能力,重点强化GPU虚拟化实战技能,贴合大模型训练/推理场景的真实运维需求。
一、AI服务器硬件体系(招聘核心考点:硬件选型与故障排查)
1. 通用计算与基础硬件
- CPU
- 核心参数:架构(x86 Intel/AMD、ARM鲲鹏/飞腾)、核心数/主频/三级缓存、PCIe 4.0/5.0通道数
- AI场景选型标准:训练场景优先多核高主频+充足PCIe通道(支持多GPU互联);推理场景优先能效比,兼顾核数与单核算力
- 内存
- 核心参数:DDR4/DDR5世代、单条容量、内存带宽、ECC纠错机制
- AI场景配比:训练服务器GPU显存:系统内存通常按1:2~1:4配比;推理场景按需降低,优先保障GPU显存
- 存储
- 介质选型:NVMe U.2 SSD(数据集本地缓存)、分布式存储(共享数据集池)、对象存储(模型归档)
- AI场景要求:高吞吐、低时延,支撑TB级训练数据集随机读写