中文平行语料库
机器翻译需要的平行语料库一库难求,笔者列举了一些免费的中文数据集,可用于中文和其他语言之间的机器翻译。
1.汉英10000平行语料库/data/14779
10000句对规模的英汉双语句对齐语料库,已经做了分词和句子对齐。
2.汉英22万句对法律类句子对齐语料/data/14261
22万句对规模的英汉法律类双语句对齐语料。
缺点是没有做分词和语言对的对齐,还得做预处理
3.汉英双语句对齐语料库(1500句对)/data/13290
1500句对规模的英汉双语句对齐语料库。
缺点是没有做分词和语言对的对齐,还得做预处理
4.最大开放字幕库OpenSubtitles的多语言平行语料数据
/data/14469
是全球最大的开放字幕库,提供了中文、英文、日文、德文、法文等30多种语言的上亿条电影和电视剧字幕。
本数据集是根据该网站数据制作的多语言字幕平行语料库,包含30种语言中任意两种语言之间的字幕互译语料。
是用于机器翻译研究的绝佳素材。
数据量也足够大,压缩后还有2.38G
5.PHP手册的多语言平行语料库 /data/15045
将PHP手册内容制作了一个包含21国语言的平行语料库。
语料库已经被分词,每个语言对都被对齐。
数据量压缩后有278M
6.KDE手册的多语言平行语料库/data/15025
将KDE手册内容制作成一个包含24国语言的平行语料库。
语料库已经被分词,每个语言对都被对齐。
数据量压缩后有88M。