LDC2009T08(Japanese Web N-gram Version 1)是 Google 提供、LDC 于 2009 年 3 月 17 日发布的大规模日语网络 N 元语法频率数据集,由 Taku Kudo 与 Hideto Kazawa 构建,包含 1-7 元语法及频次统计,源自约 200 亿条日语网页句子,是日语 NLP 统计语言模型与词汇研究的核心资源。以下是详细介绍:
基础信息
| 项目 | 详情 |
|---|---|
| 发布机构 | Linguistic Data Consortium(LDC),数据由 Google Inc. 提供 |
| 发布日期 | 2009 年 3 月 17 日 |
| 语种 | 日语 |
| N 元语法范围 | 1-gram 至 7-gram |
| 数据规模 | 源自约 2×10¹⁰条网页句子,N 元条目总量超千亿级,原始数据压缩后约 10GB+ |
| 数据来源 | 日语互联网网页(.jp 域名为主) |
| 标注内容 | 仅含 N 元字符串及其频次计数,无额外语言学标注(如词性、句法) |
| 应用场景 | 语言模型训练、新词发现、搭配挖掘、拼写纠错、机器翻译、文本生成、信息检索、日语词汇学研究 |
| 版权信息 | Google 与 LDC 版权,遵循 LDC 用户协议,仅限授权用户使用 |