基于平行语料和翻译概率的多语种词对齐方法

基于平行语料和翻译概率的多语种词对齐方法

论文摘要

为了实现多语种词对齐,该文提出一种以点互信息为基础的翻译概率作为改进的多语种单词关联强度度量方法。首先,论证了在服从Zipf定律的普通频级词区域,单词间关联强度的点互信息度量法可简化为翻译概率;其次,对汉语、英语、朝鲜语平行语料进行句子对齐、分词和去停用词等预处理后计算平行语料单词之间的翻译概率,取翻译概率最高的前k个词作为候选翻译词,并通过优化处理提高了词对齐准确率。实验结果表明,该方法可以不完全依赖语料规模,在小规模语料中取得94%以上的准确率,为跨语言小众文献及低资源语言词对齐提供了技术基础。

论文目录

  • 0 引言
  • 1 相关工作
  •   1.1 点互信息
  •   1.2 Zipf定律
  • 2 基于翻译概率的词对齐算法
  •   2.1 点互信息度量法可简化为翻译概率
  •   2.2 词对齐优化处理
  • 3 实验结果及分析
  •   3.1 平行语料预处理
  •   3.2 中—英—朝平行语料词对齐实验方案
  •   3.3 源语言单词数量与语料规模对翻译准确率的影响
  •   3.4 翻译概率优化算法针对一对多情况的区分
  • 4 结论及下一步工作
  • 文章来源

    类型: 期刊论文

    作者: 杨飞扬,赵亚慧,崔荣一,易志伟

    关键词: 词对齐,平行语料,翻译概率,定律

    来源: 中文信息学报 2019年12期

    年度: 2019

    分类: 信息科技

    专业: 计算机软件及计算机应用

    单位: 延边大学计算机科学与技术学院智能信息处理研究室

    基金: 国家语委“十三五”科研规划项目(YB135-76),延边大学外国语言文学世界一流学科建设科研项目(18YLPY13,18YLPY14)

    分类号: TP391.1

    页码: 37-44

    总页数: 8

    文件大小: 1093K

    下载量: 164

    相关论文文献

    标签:;  ;  ;  ;  

    基于平行语料和翻译概率的多语种词对齐方法
    下载Doc文档

    猜你喜欢