面向中日韩文智能信息检索的基于词典的异形词排歧.doc
《面向中日韩文智能信息检索的基于词典的异形词排歧.doc》由会员分享,可在线阅读,更多相关《面向中日韩文智能信息检索的基于词典的异形词排歧.doc(12页珍藏版)》请在沃文网上搜索。
1、摘要 中日韩文拼写的复杂性对于计算语言学工具的开发者,尤其是在智能信息检索方面,是一个特殊的挑战。由于这些语言没有标准的正字法,特别是由于日语拼写的高度不规则性,使这些困难变得更加突出。本文着重于中日韩文拼写变异的类型,对这一语言学问题做一个简要的分析并论述词汇数据库在排岐的过程中起重要作用的原因。1引言多方面的因素造成了中日韩文信息检索的困难。要达到真正的智能检索,必须克服众多的挑战。主要包括以下几个方面的问题:1. 拼写缺乏标准。在处理数量极其庞大的异体字(尤其是日文)和字符形式时,需要具备能够支持正字法检索之类的高级信息检索技术(Halpern 2000)。2. 中文简体与中文繁体之间的
2、准确转换,这是一个看似简单,但实际上却极其困难的计算任务(Halpern and Kerman 1999)。3. 日文与韩文形态音位的复杂性对精确的形态分析工具的发展提出了巨大的挑战。形态分析工具能够实现以下几种操作:规范化、划分词干(去掉变化词尾)及形态素的异文合并(将多个形态变体减少为唯一的形式)4. 难于进行准确地分词,尤其是书写上没有词间距的中文和日文。包括为了词典检索及制作索引的目的,将文本流划分成有意义的语言单位来确定词的界限。这方面取得的较大进展Emerson(2000)和Yuetal(2000)都曾有过报导。5. 多重检索技术,如基于词位的检索(如take off+jacket
3、 来自take off his jacket),依据造句法构成的短语的鉴别(例如:研究来自研究),同义字的扩充以及跨语言信息检索( CLIR)(Goto et al. 2001)。6. 多方面的技术要求例如多字符集之间的代码转换及编码,支持统一的字符编码标准,以及输入法的编辑器。大部分这方面的问题已经得到了满意地解决,正如Lunde(1999)所报告的那样。7. 专有名词是智能检索工具面对的重大难点。因为它们的数量特别多,如果没有词典,很难对其进行检查,并且其拼写很不稳定。8. 术语及其变体的自动识别,是一个复杂的题目,不在本文论述范围之内。Jacquemin(2001)对欧洲语言进行了这方面
4、的详细描写,我们目前正在对中文和日文进行这方面的研究。上述的每个问题都非常重要,都值得独立成篇专门论述。本文的重点是异形词排岐,这涉及到中日韩文异体字的处理、标准化及转换。文中总结了中日韩文书写变异的类型,简要分析了这些语言学问题,并论述了为什么词汇数据库应在排岐过程中起重要作用。2 中文的书写变异2.1 一种语言,两种写法战后中国进行了语言文字改革,其结果是数以千计的汉字被大大地简化了(总表1986)。以简化形式书写的中文称作简体中文(SC)。台湾香港以及大多数海外华人仍沿用传统的复杂形式,称作繁体中文(TC)。中文书写体系的复杂性是众所周知的。造成这一结果的因素有:大量的汉字在共同使用,这
5、些汉字具有复杂的形式,繁体与简体中文之间存在众多差别,繁体中文存在大量的异体字等。而这些大量的异体字和简体与繁体之间转换的困难对中文信息检索应用软件特别重要。2.2 汉字简繁转换从简体中文到繁体中文(或繁体中文到简体中文)的自动转换过程,被称作C2C(汉字简繁)转换,是充满复杂性及缺陷的。Halpern 和Kerman(1999)对这一语言学问题进行了详细的阐述, Lunde(1999)则描述了有关编码及字符集的技术问题,这一转换可以按照下面简要描述的三个递增的级别来实现。2.2.1 码对转换最容易,但又最不稳定的C2C转换方式是通过对应表,进行代码至代码的转换。如下表所示。这种转换叫做码对转
6、换。由于存在大量的一个代码可以转换成多个代码的不明确的情况(简繁,繁简转换中都存在这一问题),转换的失败率很高。表1. 码对转换 简体 繁体1繁体2繁体3繁体4备注门們 一对一汤湯 一对一发發髮 一对多暗暗闇 一对多干幹乾干榦 一对多2.2.2 字对转换c2c转换的第二个级别叫做字对转换,因为被转换的是拼字单位,而不是字符集中的代码。更确切地说,被转化的是有意义的语言单位,特别是多字词。如果说码对转换具有模糊性,字对转换则能够取得较好的效果,那是因为拼字对应表使得转换能够在词的层面上进行。表2. 拼字 对应英文简体繁体1繁体2不正确备注telephone电话電話转换明确we我们我們转换明确st
7、art-off出发出發出髮 齣髮 齣發一对多dry干燥乾燥干燥 幹燥 榦燥一对多阴干陰乾陰干依语言环境而定如上所见,代码转换所具有的模糊性可以利用一个拼字对应表来解决,这个表可以排除掉那些不正确的转换,如上表错误栏所显示的那样。由于对词的分割具有不明确性,字对转换可以借助于形态分析器来进行,这个形态分析器可以将文本流切分成一个个有意义的单位(Emerson 2000)。2.2.3 词对转换一个更细微复杂,更具挑战性的C2C转换的途径是词对转换,这种汉字简繁转换不是按照拼写,而是按照语义进行的。例如,简体中的“信息”转换成繁体语义对应词时,就变成了“资讯”。其区别之处就如英式英语中的lorry与
8、美式英语中的truck。简体中文和繁体中文之间存在着众多的词汇差别,尤其是术语和专有名词。Tsou(2000)已经论证了这一点。例如,“Osama bin Laden”有十多种变体。使问题更为复杂的是,正确的繁体中文有时候是受地域制约的。词对转换是C2C转换中最困难的一级,只有借助于对应表才能得以实现。表3展示了不同地域不同的的不同模式。表3.词对转换英文简体台湾繁体香港繁体其他繁体错误繁体Software软件軟體軟件軟件Taxi出租汽车計程車的士德士出租汽車Osama bin Laden奥萨马本拉登奧薩瑪賓拉登奧薩瑪賓拉丹 奧薩馬本拉登Oahu瓦胡岛歐胡島瓦胡島2.3 繁体中文的异形词繁体中
9、文没有稳定的拼写法,存在大量的异形词,经常混淆。因此处理繁体中文(某种程度上也包括简体中文)必须用对应表来排除这些异形词(Halpern 2001)。2.3.1台湾、香港地区的繁体中文异形词中文繁体字典在对繁体中文形式的选择上常常不一致。繁体中文的异形词可分成不同类型,如表4所示。表4. 繁体中文异形词 异形1 异形2 英文 备注裏裡Inside可完全互换敎教Teach可完全互换著着Particle大五字集中不存在异体2為爲For大五字集不存在异体2沉沈sink; surname部分情况下可互换泄洩leak; divulge部分情况下可互换繁体中文异形词存在的原因多种多样,例如一些繁体中文形式
10、不能用于大五字集,有些是简体中文的偶然用法等等。2.3.2 中国大陆与台湾地区异形词的对比在中国大陆,繁体中文的使用有一定范围,通常用于本国的一些古典作品、以及面向海外发行的报刊等。而这些繁体中文是以一个由简体中文形式 (GB2312-80)转换成相应的繁体中文形式(GB/T 12345-90)的标准为基础的。然而这些转换形式并不一定与台湾地区广泛使用的繁体中文一致。我们把大陆的繁体中文称作“大陆型繁体中文”(STC),将台湾,香港等地区的繁体中文称作“港台型繁体中文”(TTC)。表5. STC与TTC异形词的对比 拼音SCSTCTTC xin线綫線 bng绷綳繃 c厕厠廁3 日文的拼写变异3
11、. 1 一种语言,四种文字体系日语的拼写非常不规则。由于存在大量的异形词和极易混淆的同音字,使得日语的拼写系统明显地比其他任何一种语言(包括中文)都更加复杂。一个主要的因素就是日语的4种文字体系相互复杂的交叉导致产生了大量的单词,这些单词可以用多种意想不到的方式书写出来,(Halpern 1990,2000)。表6展示的是取扱toriatsukai 处理一词的异形词,用以阐明变异模式的多样性。表6. 取扱toriatsukai 处理一词的异形词Toriatsukai异形词类型 取扱 标准型取扱 送假名异形取扱 全汉字扱 以平假名代替汉字取以平假名代替汉字全平假名谚语一只生了个金蛋的母鸡就是一个
12、说明日语的信息检索有多么难的例子。“标准”的写法应当是金卵産鶏(Kin no tamago wo umu niwatori)。而实际上,tamago“鸡蛋”一词有4种变体,niwatori“鸡”一词有3种变体,而umu“生”一词有2种变体,由于不同的替换方式的组合,这个句子的写法可以扩展到24种形式。这些异形词经常出现在网页中,通过查询网络可以很容易验证这一点。显而易见,用户无法发现它们,除非这一应用软件能够支持异形词的排岐。3.2 送假名异形词日文中最普遍的一种书写变异类型是附加于日文汉字词干之后,以日文假名结尾的异形词,叫做送假名okurigana 。尽管可能通过算法化产生某些送假名异形词
13、,例如名词“飛出”来源于动词“飛出”,但是从整体上看必须要使用硬代码表。因为送假名的用法常常不可预测且异形词为数众多,所以对送假名异形词的处理在日文的异形词排岐中起着重要作用。表7. 送假名异形词英文读法标准形异形词Publishkakiarawasu書表書表書表書表Performokonau行行Handlingtoriatsukai取扱取扱取扱3.3 文字种类间的异形词日文书写混合了四种文字体系(Halpern 1990):中文汉字、双音节文字的平假名和片假名、以及罗马字(拉丁语字母)。对日文的信息检索应当起重要作用的文字种类间的书写变异非常普遍,而且通常都是不可预知的,所以同一个词可以用平
14、假名、片假名、或汉字来书写,甚至可以用两种形式混合来写。表格8列出了日文各文字种类间变异的模式。表8. 字种间异形词汉字对平假名 大勢 汉字对片假名 硫黄 汉字对平假名对片假名 猫 片假名对混合型 Y 汉字对片假名对混合型皮膚 皮 汉字对混合型彗星 星 平假名对片假名 3.4 假名异形词近年来片假名的使用急剧增长,用音节来拼写外来词的现象越来越普遍。日文信息检索中一个重要令人烦恼的问题是片假名的拼写往往是没有规律的,同一个词可以用多种不可预知的方式拼写的情况相当常见,而且这些拼写方式不能用算法化产生出来。平假名通常用于表示语法成分及日本的本土文字。尽管平假名的拼写通常是有规律的,但仍有少量不规
15、律的形式存在。表9列出了假名变异情况的几种主要类型。表9. 片假名和平假名的异形词种类英文读法标准形异形词长音Computerkonpyuutakonpyuutaa长母音Maidmeedo多数个假名teamchiimutiimu旧假名的使用bigookii 对 continuetsuzuku 上表只是对假名变异形式最为重要的几个类型的简要介绍,还有许多其它的类型,例如词间的点和小的假名变体,传统假名和历史假名(historical kana)的使用等等。3.5 其它类型的异形词日文中还有许多种其它的异形词类型,限于篇幅,本文不能详细介绍。下面仅介绍2种最重要的类型。更为详细的介绍可参阅Halp
- 1.请仔细阅读文档,确保文档完整性,对于不预览、不比对内容而直接下载带来的问题本站不予受理。
- 2.下载的文档,不会出现我们的网址水印。
- 3、该文档所得收入(下载+内容+预览)归上传者、原创作者;如果您是本文档原作者,请点此认领!既往收益都归您。
下载文档到电脑,查找使用更方便
20 积分
下载 | 加入VIP,下载更划算! |
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 面向 中日 智能 信息 检索 基于 词典 异形 词排歧