信息处理用彝汉双语词汇对齐技术

更新时间:2024-02-20 作者:用户投稿原创标记本站原创 点赞:28867 浏览:132855

摘 要:本文首先以信息处理用彝汉词汇对齐的难点作为出发点,然后在分析参照Borwn词汇对齐模型的基础上提出基于彝汉双语词典的彝汉词汇对齐的实现算法BiDictAlign,并用此方法进行了实验测试,测试数据显示此方法具有良好的性能,为信息处理用彝汉双语料词汇对齐技术的研究进行了有意义的探索.

关 键 词:彝汉双语;对齐算法;BiDictAlign;测试分析

中图分类号:TP391.2文献标识码:A文章编号:1007-9599(2012)11-0000-02

一、引言

双语语料对齐分为段落、句子、短语和词语几个不同的层次.但在词汇输入、信息检索、机器翻译、电子词典、语义分析等语言信息处理领域,段落、句子、短语级别的对齐是不能满足需要的,例如:机器翻译是把要翻译的句子与语料库里的源语实例进行对比,分析相似程度,找到最适合的源语实例,再参照与它对齐的目标语实例生成目标语言,这就要求必须实现源语言和目标语言词与词的对齐才能找出两者之间的对应翻译关系,相对于段落、句子、短语级别的对齐,词与词之间的对齐因为实现的技术较复杂,对齐的难度更大一些.而且彝语、汉语两个语言的差异比较大,客观上造成了彝汉双语词汇对齐的难度比其他语言之间词汇对齐的困难更大.

二、信息处理用彝汉双语词汇对齐的难点分析

词汇对齐是指在源语言和目标语言的对应翻译中找到词与词之间匹配关系的过程,如下文所举例出的彝汉双语词汇对齐的句子所示,在每个词的右下角都用数字表示了该词在句子排列中的顺序.

彝文:

汉文:我1前天2去3北京了4.

-我1;-前天2;-去3;北京4-

通过这个实例,我们可以用形式化的理论来进行分析:检测设彝汉双语词汇对齐的每个对应词汇只包含相邻的词或不存在,那么彝汉双语词汇对齐的每个部分就可以用这个六元组来进行分析,Ci表示汉语词条,Yj表示彝语词条,i、j分别表示Ci、Yj在各自句子的起始词序号.lC,lY分别表示词的个数.

词汇的对齐主要找出源语言和目标语言的对应翻译的词与词之间匹配关系,因此词汇对齐提高的语言信息度更精确,为语言信息处理研究在词典编纂、机器翻译、词义排歧、信息检索等领域研究与开发提供了重要的语言学材料支撑.然而由于彝语、汉语两个语言的差异比较大,造成了彝汉双语词汇对齐技术的实现难度比较大,主要有以下几个方面的原因:

1.不同语言都有自身的语言表达习惯与方式,检测设性的词汇排序不可能都能满足所有的情况.在段落、句子级别的对齐中,因为在对照、翻译、对齐的过程中段落、句子的次序调整都是少见的,因此常规性的检测设对齐条件能满足大多数情况的语言应用实际.但是在词汇对齐中词序的错位是常见的.词序的错位将直接扩大对齐的搜索空间和范围,匹配的结果不相符的可能性将大大增加.

2.词汇的匹配模式比较复杂多样化.在词汇对齐中,除了词与词之间需的对照翻译外,还有一些在对照翻译过程中不需要翻译、省略,但需要对齐的现象也很常见;此外,有些词直接翻译成从句子,例如:飞檐走壁-;词也翻译成相邻或不相邻的短语;一些更复杂的情况,如:在彝语中有些词通过跟相邻的词语组合成短语后短语才会有相应的对照.词汇对齐匹配模式比较多样化无形中就加大了词汇对齐时搜索对象的数量.

3.词汇的匹配关系难以断定.通过不同句子的对照翻译信息、长度匹配关系就可以判定句子间的匹配可能性.虽然通过彝汉双语词典可以满足一部分词汇匹配,但对于新词术语、未登录词、外来词等不可能全部收入词典,还需要寻找别的匹配方法来进行对齐.

众所周知,不同语言之间的翻译对照是不以词为单位的,考虑的因素比较多,这也是造成目前词汇对齐技术研究的根本原因.

以上说述的几个方面主要是由于彝语、汉语之间的较大差异,在进行彝汉词汇对齐的过程这些方面表现得很明显.此外,由于彝语本身的特点,在进行彝汉词汇对齐的过程还得处理好两个的问题:

1.彝语中的词没有固定或明显的词头、词尾和性、数、格变化等分词标志,而且没有统一、严格的非形式定义,对形式或抽象定义都还存在一定的问题.导致这个困难一方面是单字词与语素之间的划界,另一方面是词与短语(词组)的划界,也就是说词与词之间的边界还没有最终划清,在这种情况下,进行彝汉的词汇对齐,必然有一定的困难.

2.彝文中有大量尔比,即谚语、熟语.其结构紧密,语义完整,但其中的许多字符可以单独切分为词,也可以与其他字符或字符串组成词,而且与之相应汉语中通常没有固定的对应目标语言,而且通常采用意译,几乎找不出词汇级别上的对应.对于这样的翻译,很难进行词汇的对齐.如:汉语:八仙过海,各显神通;彝语:

三、Borwn词汇对齐模型

基于统计的机器翻译系统在Borwn等人推动下有了长足的进展,也是目前进行词汇对齐实验研究最初的动机.这个模型把源语言S到目标语言T的翻译看成是T经过某个噪声信道畸变成S,然后通过S恢复T的过程,用形式化的表达方式为:

T等于argmaxProb(T/S)等于armgxa(Porb(T)Prob(S|T))

其中Prob(T)是语言模型(lnaguamodel),Prob(S|T)称为翻译模型(translationmodel),通过语料训练分别得到这两个模型的参数,这样从源语言S到目标语言T的翻译转变为两个过程,一是通过训练得到的模型参数计算模型的值,二是通过搜索、比较得到最可能的目标语言,搜索的同时得到词汇级别的对齐.

对于翻译模型Prob(S|T),Borwn提出了5个基于词汇对齐的模型.这几个模型可以总结为:翻译模型Prob(S|T)实际上是T中的一个词到S中的零个、一个或者多个词的翻译概率的联结过程.其实在己知这些参数的情况下,词汇对齐的过程就是一个求最大概率值的搜索过程.例如:Dangan等人使用改进的Borwn模型对包含噪声的OCR文本不加以预处理,通过字符串匹配获得部分对齐,然后使用词汇对齐模型进行词的对齐,该方法在对含有65000个词的英法噪声文本进行词汇对齐时,其中60.5%的词获得了正确的对齐.为了避免过多的词对进行匹配,Galy使用一种类x2的概率分布,只选择部分相关词对进行匹配,通过该方法,对800个测试集句子中的61%的词,获得了95%的正确率.Ker使用了一种基于语义类的方法对汉英句子进行词汇对齐,该方法通过大规模语料的训练,来获得汉英词翻译的语义类匹配规则,然后利用这些规则对汉英句子进行词汇对齐,据称该方法可以达到80%以上的召回率和90%以上的正确率.