语义关系下英语复杂长句机器翻译算法优化
王红利
(陕西警官职业学院,陕西 西安 710021)
作者简介:王红利(1981—),女,讲师,主要研究方向为英语教学、英语翻译,lilixin337@163.com.
摘要:传统机器翻译算法对英语复杂长句的翻译准确率低、回收率高,针对这一难题,提出了基于语义关系的机器翻译算法。该算法通过长句内分句(短语)之间的语义层次关系,构建基于相似度的语义网络模型,结合余弦相似度和带权向量加法计算获得翻译结果,利用权重训练获得关键短语。以NIST 06和NIST 08测试集为例,基于语义关系的英语复杂长句机器翻译算法测试BLEU值比传统算法分别提高了0.35和0.23,即翻译结果的准确率提高,回收率降低。
关键词:语义关系;英语复杂长句;机器翻译
中图分类号:TP3-0 文献标识码:A 文章编号:2095-509X(2020)12-0118-03
英语长句由于句式结构复杂,与汉语句式差异大,已成为机器翻译系统研究开发时的主要难题[1]。目前,关于英语复杂长句机器翻译算法有基于句法分析、多策略分析和语料库翻译等,主要侧重于词义排查、语义特征的处理等[2-4],但这些机器翻译算法翻译准确率偏低,且回收率较高,翻译结果可靠性差。英语复杂长、难句尽管句式复杂,但句内各语义层次相互关联,通过把握复杂长句内语义层次关系,掌握原句内部各层意思,从理论上讲,能够极大提高英语复杂长句机器翻译的准确率和可靠性。基于此,本文基于语义关系,优化英语复杂长句机器翻译算法,并对优化结果进行分析。
1 基于语义关系的英语复杂长句机器翻译算法
1.1 机器翻译算法
英语复杂长句在科技英语中非常普遍,有的甚至长达数十行,包括上百个单词,蕴含很多个从句和非谓语动词,这些从句和短语之间相互依存,具有非常鲜明的语义层次关系。因此在传统切分英语长句的基础上,分析各分句之间的层次关系,利用语义关系进行模型训练,构建语义网络模型进行机器翻译,是科学的且是容易实现的。基于语义关系的英语复杂长句机器翻译算法流程如图1所示。
通过各层次语义关系训练语料库,可以有效避免翻译断层造成的翻译错误。基于语义关系的机器翻译模型的翻译结果更加精确,翻译速度更加快速。该算法利用余弦相似度[5]获得两向量的语义相似关系,通过带权向量加法[6]计算两个相似向量的区别,获得精准翻译结果,通过权重方式训练句子,获得关键短语。
英语复杂长句的切分简化处理方法为:输入原文句子,逐个扫描其各短语和分句,并通过该短语的基本语义,在实义语料库检索长句切分处理结果。由于长句的分句之间是通过关联特征词连接的,因此以句子的特征点为分界线,将句子分成前后两部分,分别进行翻译,再采用断句拼合的方法,给出整句的翻译结果。而对于句子中的修饰成分、特征关联词和特征标志词等,首先提取出来,并进行优先归约分析处理。 |