中国姓名和地名自动识别系统的研究 1 引言 1.1 人名、地名识别研究的意义 未登录词是指在文本处理中遇到的由于词表未收录因而机器不认识的词汇,主要包括两部分:一是专有名词,它包括中国姓名、中国地名、译名、机构组织名等等;二是缩略语、派生词及不断发展和约定俗成的一些新词语等,如与Internet相关的“网页、互联网、蓝牙技术”等等。 首先,在中文信息处理应用系统中,词表应当有一定的规模,但不能无限扩大,即词是不可能穷尽登录的,人名和地名几乎可以看成是无限的,新词语也在不断产生,因而未登录词总是客观存在的,关键是汉语语言处理系统要具有未登录词识别的能力。 其次,目前自然语言处理领域的处理对象是大规模真实文本,而不仅仅是少量的词条和典型的句子。大规模真实文本中涉及到的未登录词面广大,要处理此类文本就不能回避未登录词的识别问题。 再者,据统计,未登录词在中文新闻语料中占文本总词数的10%左右。其中,中文姓名占未登录词中15%左右。在自然语言处理领域中,许多方面的工作也都离不开中文姓名和地名的自动识别。譬如人们在检索某些材料时,往往需要从查询姓名和地名入手。这就需要从文本中把人名和地名辨别出来,提供检索入口,而在机器翻译系统中,人名和地名也必须采用与其他词语不同的特殊规则来处理。 中国姓名和地名的识别技术是中文信息处理的基础研究领域,是中文信息处理中的一个难点,也是中文文本自动分词的难点之一。由于中国姓名数量多,且随时间的改变而不断增加和删除,因而不可能创建一部收录全部中国姓名的人名库或人名词典,只能通过技术手段来实现中国姓名的识别,与此同时,单一的匹配地名库的地名识别方法也缺乏足够的灵活性和识别能力,同样需要更具有技术性的方法来实现地名的识别,所以,中国姓名和地名识别技术的突破将对提高汉语自动分词的准确性具有重要的意义[1]。 汉语的自身特点使得中文信息自动处理大多是先对要处理的文本进行自动分词(加入显式分割符) , 然后再在分词的基础上进行词法、语法、语义等方面的深入分析。而在分词阶段, 文本中的人名、地名以及其它专有名词和生词大多被切分成单字词, 在这种情形下如不能很好地解决汉语文本中专有名词生词的识别问题, 将给其后的汉语文本的深入分析带来难以逾越的障碍。中国姓名和地名的自动识别问题就是在这种背景下提出来的。在中文文本的自动分词处理中,未被识别的中国姓名和地名是造成分词错误的原因之一。由上述内容可见,中国人名和地名的识别技术意义之重大[2]。 1.2 中国人名识别的难点 1、同西方拼音文字相比,汉语文本中姓名没有首字母大写作为识别标志。 2、姓名数量多,且随时间的改变新增和删除,除少数著名人物的姓名可以收录到中文信息处理系统用的词典之外,绝大部分姓名需要专门识别。 3、姓名类型多样。如:【a】 复姓全称人名。例如:司马光,诸葛亮 【b】 单姓全称人名。例如:张艳丽 【c】 名字简称 。例如:(周)恩来同志 【d】 姓氏简称。例如:老叶,小王,郭老 【e】 笔名。例如:冰心,启功 【f】 乳名。例如:阿春,小福子 【g】 绰号。例如:南霸天 4、真实语料中姓名出现形式多样。如:【a】 前后带称谓词的人名。例如:作家苏童,书记马于明同志,杨尚昆主席 【b】 带有指界动词的人名。例如:冷藏厂厂长王港说 【c】 不带有称谓指界词的姓名。例如:我不记得怎样被网海鸣碰了一下 【d】 嵌在某些固定模式中的人名。例如:刚卸任的石方禹 【e】 连续人名。例如:江泽民李鹏乔石朱鎔基胡锦涛曹刚川薄熙来等党和国家领导人 5、真实语料中姓名结构复杂。如:【a】 姓名成词。例如:第二次握手的作者张扬,电影演员宁静 【b】 姓氏成词的人名。例如:黄河燕,黎明生,有关于小彤的工作问题 【c】 名字自身成词的人名。例如:著名导演徐松子,后坡村农民张石头,工人张解放 【d】 姓名与相邻字成词。如:齐远生意识到,韩忠心地善良[3]。 1.3 中国地名识别的难点 中国地名的识别与中国姓名相比,情况也是很复杂的,具体表现为以下几点: 中国地名用字比较分散。据报道,从《中华人民共和国地名录》中的9万条地名和280万新闻语料中的地名共统计得到3685个地名用字,其中可作地名首字的有2916个,可作地名中间字的有2978个,可作地名尾字的有1181个,尾字表现出了比首字和中间字都要高的集中性。 中国地名长度没有一定的限制,最短的有“京”、“沪”,只有一个字比较长的有“双江拉估族布朗族傣族自治县”,共13个字。 可作单字的汉字在地名中经常出现,如“西直门”、“马家塔”中的每个字都是高频单字词。 地名中可含有多字词,如“黄/果/树/瀑布、葫芦/岛、红领巾/路”。在1998年度的863自然语言接口评测中,关于中国地名的自动识别准确率为69.10%,召回率为60.47%[4]。 1.4 中国姓名和地名自动识别研究的现状与分析 国内外对专有名词的识别都做了一定的研究。西方语言处理专有名词,虽也有确定专有名词边界的问题,但需要解决的主要问题的是如何从上下文推断其词性的问题。通常的方法是利用词典和大规模语料库中统计得到的词频、词缀等统计信息,辅以句法分析,对首字母大写的词串进行形态分析,再结合构词法、前后缀形态与一定的上下文信息、语义信息确定一个大写字母开头的词或词串是否是专有名词,是什么类别的专有名词。如,可以通过称谓姓氏(Mrs. Smith)来确定一个大写字母开头词是姓名。从来自于美国国防部举行的第6届MIS会议上的一些统计数据来看,即使是识别西方语言中具有形态特征的专有名词,其识别率也仅能够达到85%左右。而要自动识别中文文本中中不具有形态特征的专有名词,难度更大。 由于汉语是非形态语言,在文本中没有词的间隔标记,词类和语法成分的对应关系十分复杂,因而汉语专名识别中不可能使用句法分析和词形变化作为专名识别的手段。目前采用的技术路线有两类,一类方法整体解决方案,它是在确定要处理的语料库的情况下,直接用统计方法从语料库获取词汇,在经过后处理阶段,通过从词的上下文和用字,确定专有名词的类别。另一种方法是个别解决方案,集中于某一类专有名词的辨识,通过收集大量的某类专有名词信息,建立语料库,从中发现专有名词用字的统计规律,再利用统计规律来辨识任意句子中的专名。其中对于中国人名的研究已经有文献见诸报导”。多数采用的是后一种方法,首先根据大规模人名库或真实语料,对其中的姓名样本进行统计,产生姓氏和名字用字频率表,提取规则,然后将此统计信息和规则应用于中文姓名的辨识。辨识时是在初步分词的基础上,查找分词结果中某个单字是否是单姓,双字词是否是复姓;如果是姓氏,则此单字与其后的一个或两个可用作名字的汉字构成潜在姓名,通过计算每个潜在姓名的概率估值,以中文姓名的概率信息作为主要依据,使用给定的阈值进行概率筛选。结合称谓词、指界词等相关信息进行识别。清华大学、国立台湾大学对中文姓名的识别作了比较详细的研究,提出了各自的概率模型和识别算法。目前的中文姓名识别方法存在的主要问题是: 由于是在分词碎片(初步分词后形成的若干个连续单字)的基础上进行姓名识别,对姓名成词和姓氏成词的情况识别效果不好。 【b】 仅利用姓名语料库静态的来统计姓氏、名字用字的频率,确定姓名的筛选阈值.造成了姓名识别时不能同时保证有较高的召回率和准确率。 【c】 在确定姓名的阈值时,使用的姓名语料库的代表性不强。并且没有考虑不同姓氏的差异。 对简称的识别几乎没有涉及。 中国地名就其内部构成上来看,要比中国人名复杂一些。人名中都带有一个姓,而且能够做姓的字词大部分都是以做姓为主的,基本上是比较确定的。地名有时候也有一个结束标志,但是这个标志很容易同其它字词构成别的词条,所以不太确定,而且有时候这个标志根本就不出现。但是,汉族地名在大规模真实文本中出现的基本上是县级及其以上的地名,动态出现的非常少,所以,在地名动态识别过程中,我们可以将县级及其以上的地名都收录到静态的词表中,就基本上解决了绝大部分汉族地名识别的问题。然后再对极少数地名做动态识别[5] [6]。 针对上述问题,本文依照统计、规则及结合性技术相结合的策略,以国内最有权威性的工具书《姓氏人名用字分析统计》和北京大学山西大学的真实文本语料为数据统计基础,利用统计总结出的中国人名的姓氏和名字用字用词的相关信息、地名用字的相关信息,以及人名地名构成的相关规则,提出了在不作分词和标注处理的原始文本中进行中国姓名和地名识别的方法,并设计实现了一个中国人名和地名自动识别的实验系统。
2 人名、地名识别的相关资源和技术概述 现有的判断识别中国人名和地名的方法主要有三种:基于统计的方法、基于规则和基于结合性的方法。 2.1 人名识别的相关资源 2.1.1 基于统计的人名识别方法中的相关资源 基本思想就是对大规模中文姓名库进行统计,算出每个姓氏用字的概率、每个名字用字的概率,对每个可能姓名计算其概率值,并设定一个阀值,大于这个阀值就断定为姓名,小于这个阀值就不为姓名。一个简单的模型:令name代表一个可能成为姓名的字串,name=W 1,W2, W3,其中W1, W2和W3为组成该字串的单字。P (name)为name字串成为中文姓名的概率,p (W i)为单字W i作为中文姓名用字出现的概率,则:P (name)= p(W1) p (W2) p (W3),当P (name)大于某个阀值时就判断name为确定姓名,否则不是。复杂的系统会根据不同边界取不同阀值,进行判断[7] [8]。 目前关于基于统计的人名识别有以下一些数据资源和和统计分析: ● 姓氏用字和名字用字 有关现行中国姓名用字分布的调查,已有多个报告,虽然取材不同、但结论相近或一致。其中国家语委主持和山西大学参与计算统计合作完成的《姓氏人名用字分析统计》,它是根据1982年人口普查资料,从北京、上海、辽宁、陕西、四川、广东和福建等七个省市,各抽出2 5万人名。总计174900个姓名中统计了姓氏用字和名字用字频度。因此该工具书所涉及到的姓氏语料覆盖面广、代表性强,比较合理、科学。根据《姓氏人名用字分析统计》,得到[9]: (1)姓氏用字频率表 在中国使用的737个姓氏中,单姓729个,复姓8个,姓氏用字739个。由姓氏用字表反映的特点是:姓氏虽多,但使用集中在少数大姓上,“王、陈、李、赵、刘”这五个大姓占姓名总数的3 2%,前114个姓占9 0%,前365个姓占99%。姓氏使用出现次数在10次以上的有379个,约占频率为99.085%:剩下的为出现次数在lO次以下的,有350个,只占单姓姓氏额度总数的O.643%,其中仅出现一次的有143个,共占频度总数的0.144%。 此外,复姓只有8个即:欧阳、司徒、刘付、皇甫、长孙、相里、诸葛、,总共99人次,仅占总人数的0 .058%(括号内为出现次数)。表2.1为前100个高频次单姓及其累计频度表。 表2.1 前100个高频次单姓氏及其累计频度表 排序号 形式序列 累计频率 1-5 王、陈、李、张、刘 32.00% 6-15 杨、黄、吴、杜、周、叶、赵、吕、徐、孙 50.80% 16-65 朱、高、马、粱、郭、何、郑、胡、蔡、 曾、余、沈、谢、唐、许、罗、袁、冯、宋、苏、曹、陆、董、于、韩、任、蒋、顾、钟、方、杜、丁、姚、姜、谭、邱、肖、金、贾、田、崔、程、余、魏、藏、范、邓、麦、潘、薛 80.36% 66-100 卢、洪、侯、夏、白、贺、钱、庄、邹、 汪、史、石、彭、袭、秦、廖、黎、施、付、赖、江、邵、邢、倪、闰、严、常、康、牛、万、陶、盂、葛、路、毛 88.01% (2)名字用字频率表 人名用字情况复杂,虽多数是常用字,但也经常出现一些生僻字、不用的古字、方言字、新造字等。人名用字虽多(共3345个),但使用也相对集中。表2.2列出了前71个名字用字表,表2.3、表2.4和表2.5分别列出了单名用字、人名首字用字和人名尾字用字频率最高的前十个字。 表2.2 频率最高的部分名字用字及累计频度表 排序号 人名用字 累计频度 1-6 英、华、玉、秀、明、珍 lO.350% 7-71 文、芳、兰、国、丽、桂、荣、淑、德、春、金、建、志、风、云、请、水、林、平、红、宝、紊、成、福、美、梅、海、军、小、玲、惠、亚、生、伟、兴、忠、琴、新、霞、祥、庆、燕、萍、艳、洪、敏、芬、光、娟、花、强、妹、琼、东、月、晓、利、瑞、振、元、责、学、世、辉、杰 50.17% 表2.3 单字名用字频率最高的前十个字 频率序号 单字姓用 占总数百分比(%) 累计百分比(%)
首页 上一页 1 2 3 4 下一页 尾页 1/4/4