news 2026/6/25 21:58:05

some 知识点 knowledge

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
some 知识点 knowledge

输出 查看模型结构 使用print(model) model.name_module() model.named_parameters()等方式查看层级结构

对于vit reanet yolox等常见架构 结合官方文档和源吗

确定可冻结/可训练的模块 在vit中 可以冻结 patch_embed 和前几层blocks 只微调后面几层+分类头

通过requires_grad控制梯度更新 冻结backbone 解冻特定层

微调的时候 不同模块用不同的学习率

还有的是在不同的epoch使用不同的学习率

学习率调度知识点:

按epoch变化 step decay 阶梯衰减 每隔固定epoch 学习率*一个衰减因子

多阶段衰减,在预设的epoch节点 衰减

linear warmup_decay 线性预热+衰减 前几个epoch线性增加 learning rate 之后按照step/cosine衰减

啥是cosine decay?余弦衰减 学习率就像余弦的图像一样衰减下来

关于早停机制、保存最佳模型、最终模型是否最优

在深度学习训练中,训练loss会持续下降,但是验证指标(比如准确率 mAp f1 )往往会线上升后下降 这就是过拟合

F1的计算就是:

不能只是保存最后的checkpoint 而是要监控验证指标,保存历史最佳

最好的标准是自己决定的:你所关心的指标达到最优就是 最好

早停机制 :当模型在验证集上不再变好时,提前终止训练, 在每个epoch 或者是n个step 在验证集上评估指标 如果连续 m个epoch没有提升,就停止训练

让我想起了一个叫做优化器的东西。

optimizer = torch.optim.AdamW(
model.parameters(),#model.parameters这些参数是需要被更新的
lr=5e-5,#学习率
weight_decay=0.05,#衰减
betas=(0.9, 0.98) # ViT 常用 beta1=0.9 当前梯度占0.1 过去梯度占0.9 beta2=0.98梯度平方的平滑,控制步长缩放,防止某些参数更新太猛

scheduler = get_cosine_schedule_with_warmup(
optimizer,
num_warmup_steps=500,#学习率这样持续500个step 注意step和epoch的区别 训练一次就能看出来了 epoch是多个step
num_training_steps=total_steps
)

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/6/25 22:24:07

基于SpringBoot的电影购票系统设计与实现-计算机毕设 附源码 38761

基于SpringBoot的电影购票系统设计与实现 摘要 本研究旨在设计与实现一个基于 SpringBoot 框架的电影购票系统,以满足用户便捷购票和管理员高效管理的需求。系统采用 Java 语言进行开发,结合 SpringBoot 框架的高效性和灵活性,构建了一个稳定…

作者头像 李华
网站建设 2026/6/25 13:15:03

LoRA微调在垂直行业大模型训练中的应用指南

大模型训练正从通用化向垂直行业深度渗透,金融、医疗、能源、通信和政务已成为当前模型训练的五大热门行业方向 。这些行业的大模型应用呈现明显的差异化特点,需要根据各自的数据特性设计合适的微调策略。LoRA(低秩自适应)作为一种参数高效微调方法&…

作者头像 李华
网站建设 2026/6/26 15:18:37

【低代码PHP开发新纪元】:属性绑定核心技术揭秘与实战应用

第一章:低代码PHP开发新纪元的背景与趋势随着企业数字化转型进程加速,传统编码模式在快速迭代需求面前逐渐显露出开发周期长、人力成本高等问题。低代码平台应运而生,成为连接业务需求与技术实现的桥梁。PHP作为长期活跃于Web开发领域的语言&…

作者头像 李华
网站建设 2026/6/25 3:02:35

面试复习题--Android和iOS设备上的绘制原理

深入理解Flutter 在 Android 和 iOS 设备上的绘制底层原理,核心是搞清楚 Flutter 如何跨这两个系统实现统一的 UI 渲染,以及它在两端分别与系统底层渲染框架的交互逻辑 ——Flutter 的核心特点是「自绘引擎(Skia)接管全渲染流程」,避开了 Android/iOS 的原生 UI 组件系统,…

作者头像 李华
网站建设 2026/6/25 19:55:49

Kafka日志迁移与查询机制解析

Kafka Broker 端用于管理日志目录(Log Directory)迁移和查询 的核心逻辑,分别对应两个关键 API: alterReplicaLogDirs(...):实现 KIP-113 中的 ALTER_REPLICA_LOG_DIRS 请求,用于将某个分区的日志从一个磁盘…

作者头像 李华