文章主要内容与创新点总结
一、主要内容
本文聚焦低资源方言的大语言模型(LLM)适配问题,以魁北克法语(Québécois)为案例,研究在有限数据和计算资源下,通过持续预训练(CPT)结合参数高效微调(PEFT)技术实现方言适配的可行性。
- 研究背景:主流LLM多基于高资源标准语(如法国法语)训练,对低资源地区方言覆盖不足,存在"方言鸿沟",限制了少数语言群体的AI技术使用权。魁北克法语在拼写、词汇、习语和语码转换等方面与标准法语存在差异,且相关语料资源稀缺。
- 技术方案:
- 数据:构建8657万词的魁北克法语语料库,涵盖新闻、书籍、社交媒体评论、论坛帖子等正式与非正式文本。
- 模型:基于CroissantLLMChat-v0.1(1.35B)、Llama-3.2-1B、Llama-3.1-8B三个基础模型,采用低秩适配(LoRA)和梯度检查点技术,仅更新不到1%的模型参数。
- 训练:以因果语言建模(CLM)为目标,进行3轮和6轮持续预训练,使用AdamW优化器、余弦学习率衰减等配置。
- 评估与结果:
- 在COLE基准套件的8个任务(4个魁北克法语任务+4个标准法语任务)上评估。
- 结果显示:6轮预训练后所有模型在魁北克法语任务上均有提升;大模型(如Llama-3.1-8B)可同时提升方言适配能力和标准法语表现,小模型(如Llama-3.2-1B)存在适配与能