传统文化文本数据化:先做术语表,再谈模型理解
把传统文化文本拿来做 NLP 分析时,最容易犯的错误是直接分词、向量化、聚类,然后解释出一堆玄妙结论。问题是,古文、术语、异体字、注疏体系都很复杂。没有术语表和标注规范,模型结果很容易只是文本噪声的投影。
传统文化数据化要先把语义边界整理清楚,再让模型参与分析。
一、先建立术语表
flowchart TD A[Raw Text] --> B[Term Dictionary] B --> C[Annotation Rule] C --> D[Dataset] D --> E[Model Analysis]术语表包括核心概念、别名、同义表达和上下文解释。没有它,模型很难稳定理解文本。
术语表还要区分“词面相同”和“语义相同”。古籍文本里常有同词异义、异词同义、注疏层级混杂的问题。一个词在正文、注解、现代译文里的含义可能不同,如果不在数据层做标记,模型会把多个语义混在同一个向量空间里,后面的聚类和检索都会变得含糊。
二、术语要有来源
{ "term": "阴阳", "aliases": ["二气"], "source": "annotated_classic_v1", "note": "具体含义随语境变化" }传统文本里,同一个词在不同文献中可能含义不同。来源和注释不能省。
来源记录不是学术装饰,而是可追溯机制。后续如果发现某个术语解释不准确,可以回到具体版本修订,而不是整批数据重做。对于存在争议的解释,术语表可以保留多个候选释义,并标注适用范围。这样模型训练和人工分析都能知道不确定性在哪里。
三、标注规范要写清
annotation_rule: entity_types: - concept - person - place - divination_symbol ambiguous_term: action: mark_uncertain遇到歧义,不要强行标一个确定标签。保留 uncertain 比乱标更诚实。
标注规范还要说明粒度。是按字词标注,按短语标注,还是按句子中的概念关系标注;是否区分原文和注释;是否把译文视为独立语料。这些决定会直接影响模型任务定义。规范越模糊,标注者之间一致性越差,模型学到的也越像噪声平均值。
四、模型输出要谨慎解释
聚类、相似度、主题模型只能提供线索,不能直接当文化结论。要回到原文样本检查。
analysis_flow: model_result sample_review expert_check conclusion数据化不是把复杂文本压成数字后就结束。解释仍然需要人类知识。
最危险的做法,是看到模型聚出几个主题,就直接赋予宏大解释。模型结果应该先作为线索:它提示哪些文本可能相关、哪些概念经常共现、哪些时代或文献差异值得检查。真正形成结论前,要回看原文片段、术语解释和标注规则,确认数据化过程没有制造假象。
数据集发布时也要附带说明文档。包括文本来源、清洗规则、术语表版本、标注者一致性、已知争议和不适用范围。传统文本的数字化越严肃,越需要把边界讲清楚,让后续模型使用者知道哪些结论可以相信,哪些只能作为探索。
模型训练前还应保留原文到结构化数据的映射。任何自动切句、繁简转换、异体字归一、标点补全都会改变文本形态。映射关系完整,后续才能从模型发现回到原始文献。
五、总结
传统文化文本数据化要先做术语表、来源记录和标注规范,再进行模型分析。遇到歧义要保留不确定性。
模型能帮助发现模式,但不能替代语义考证。先把数据做干净,再谈理解。