3 系统的设计 3.1 系统功能模块 3.1.1 资源建立模块 (该模块有本人负责设计完成,后面将有详细介绍) 内容:对大规模的已标注的中文语料进行数据统计,包括统计频率值、频数值等,完成对600万中文语料的数据统计的算法,并建立中国人名、中国地名和中文成词等中文信息的数据资源库。 功能:为人名和地名的识别提供依据,是人名和地名识别两个功能模块实现的根本所在。对一段文字或文章进行切分和人名地名识别时,首先要连接本人设计的数据资源库进行扫描匹配来实现对潜在的姓氏、人名和地名的识别,以及频率的比较和词性的标注。 实现:打开数据资源库,可详细查询各种数据资源。 3.1.2 人名识别和语句的切分模块 【a】 内容:完成人名识别、语句切分的算法以及界面 功能:通过连接和扫描已建立好的数据资源库,完成匹配工作,来实现对真实中文文本进行中国人名地名的识别、语句的切分及词性的标注。 实现:打开人名分析界面,输入一段文字或文章,即可进行语句切分,人名的识别,并显示出来,包括显示人名、显示分词和显示频率。 3.1.3 地名识别和机器学习模块 【a】 内容:完成地名识别的算法及界面和机器学习的算法。 【b】 功能:通过连接和扫描已建立好的数据资源库,完成匹配工作,来实现中国地名的识别,并对识别过程中出现的错误进行学习和修正。 实现:打开地名分析界面,输入一段文字或文章,即可进行地名的识别,并将地名显示出来。 3.2 本人负责模块的详细介绍 本人负责的是该设计的第一个模块,即资源建立模块。 资源建立模块是人名、地名识别和语句切分的根本,人名、地名识别和语句的切分都必须以此为基础来完成各自功能,所以资源的建立是该设计的首重部分。 数据资源库包括中文成词库、中国姓氏库、中国特殊人名库、中国地名库、中文词性库、中文标点符号库以及词库中每一个词语的频率统计。本人通过对有限的600万中文新闻语料(863北大语料、山西大学语料)进行统计与分析,通过计算机程序设计技术制作了一个数据资源库,如图3.1所示: 图3.1 数据资源库 这个数据资源库中又包含了以下六个资源库: 【a】 中文成词库 我们分析并统计出了这600万语料中的所有的词语(这些词语中就包含了人名、各类动词、形容词、介词、量词、叹词等等),将这些所有词语统计入库,我们称之为中文成词库,我们还计算出了每一个词语它在语料中出现的频率,这个频率的计算方法是这样的:词语X的频率P(X) = X在所有词语中出现的次数 n / 词表中所有词的个数 m 。同时我们还统计出了所有词语的词性。每一个词语的频率、词性都列入词库中。如图3.2所示: 图3.2 中文成词库 【b】 中国特殊人名库 这个特殊人名库中不仅包括了从600万语料中统计出的所有中国特殊人名,还加入了许多历史名人和当代政界、体育、文化和科技各类名人,以及一些可作为潜在识别姓名的人名。这个库我们称之为特殊人名库。如图3.3所示: 图3.3 中国特殊人名库
【c】 中国姓氏库 此姓氏库中不仅包括从600万语料中统计出的所有中国姓氏,还加入了语料中所没有出现过的中国姓氏,包括复姓在内,共计636个中国姓氏。这个资源库我们称之为中国姓氏库。如图3.4所示:
图3.4 中国姓氏库 【d】 词性库 此库中包含了现代中文常用的所有词性,并且每一种词性都有特殊的标记符号。如图3.5所示: 图3.5 词性库 【e】 标点符号库 此库中包含了中文常用的标点符号。如图3.6所示: 图3.6 标点符号库
【f】 中国地名库 我们通过大量的收集,再经过整理分析,共统计出了88026个中国地名,其中不同名字的地名共70449个。如图3.7所示: 图3.7 中国地名库 由于所统计和分析的资源规模十分庞大,所以不可能通过手动添加数据来完成,本人所完成的这个人名、地名、中文成词等中文信息数据资源库是通过计算机程序设计来实现的。图3.8为实现建立人名、地名和中文成词等中文信息数据资源库的界面。
图3.8 资源建立界面 4 系统的实现及试验结果分析 4.1 系统的要求 【a】 中国人名和地名自动识别的实验系统将在Windows平台下,运用VB6.0环境采用面向对象的技术开发,应当可以很方便地进行扩充修改及作为一个控件嵌入其他系统中。 【b】 系统目标:从文本文件中按标点符号等指定的断句符号为标记得到一定数量的句子,通过此系统处理后,输出带有识别结果信息的句子。输出信息有: 人名标记 地名标记 每一个词语后面标注有该词的词性 【c】 系统所需环境: 系统具体的软硬件配置如下: 操作系统:WINDOWS98/2000/XP CPU:INTEL PENTIUM 266 或更高 硬盘:100M 或更高 显示器:VGA 800*600分辨率 内存:32M 或更高 系统开发软件:Visual Basic 6.0 4.2 识别过程试例 4.2.1 人名识别试例 例1:周孜正在做毕业设计 分词后:周孜name / 正在d / 做vt / 毕业n / 设计n 识别人名:周孜name 对于中国人名的自动识别,系统首先扫描数据资源库中的人名表,看是否有潜在姓名匹配,如果有的话就直接将人名识别出来,如果没有可匹配的潜在姓名,则再扫描数据资源库中的姓氏表,看是否有可匹配的姓氏,如果有的话就将该姓氏先切分出来,再根据该姓氏上下文信息及人名识别的一些规则判断该姓氏后的一个或两个字是否能和之前切分出来的姓氏组成一个中国人名。 系统在扫描数据资源库进行潜在人名的匹配工作时,也在进行一般词语的匹配工作,因为系统也会同时扫描数据资源库中的词语表和词性表,这样就可将一句话中的每个词语切分开来,并对每个词进行词性标注。 通常来说还有可能遇到两个潜在姓氏的重叠的情况,遇到这种情况就要对两个姓氏进行频率的比较,系统通过扫描数据资源库的姓氏表,参照比较二者的频率大小,频率大的那个姓氏系统就自动识别它为这个名字的姓氏。 例如:他们都是陈金仁教授的学生 这其中“陈金仁”可以是人名,“金仁”也可以是人名,通过比较“陈”、“金”二者作为姓氏的频率的大小,判断出“陈”是该人名的姓氏,从而也就识别出人名“陈金仁”。 4.2.2 地名识别试例 例1:上海是美丽的国际大都市 分词后:上海ns / 是vl / 美丽的a / 国际a / 大都市n 识别地名:上海ns 对于中国地名的自动识别,系统首先扫描数据资源库中的中国地名表,看库中是否有地名匹配,如果有的话就直接识别出来,如果没有可匹配的地名,在根据地名识别的规则进行判断。 4.3 实验结果及讨论 从实验结果来看,我们所设计的这个系统基本上能满足真实文本的人名和地名识别需要,但由于一方面我们的能力有限,另一方面语料资源的不足,所以导致该系统在对真实文本进行人名和地名识别时,难免出现一些纰漏和错误,以下是一些我们的错误总结: 中国人名识别的错误主要集中在以下几个方面: 1.与地名、音译名、机构名发生冲突 例:一辆由汉口开往/武昌方/向的公交电车 伊拉克副总统拉/马丹/1 5日在这里说 /柯达/这个品牌是在1 8 8 8年问世并注册的 2.与常用字、词发生冲突 例:/村里/二话没说,同市教育局协商 以主席/曾钰/成为团长的香港民主建港联盟 上午张三走,下午/李四来/ 中央决定陈毅仍/任华野/司令员兼政治委员 王志/飞去了教室 中国姓名识别只是整个分词系统的一个组成部分,应该与其他未登录词识别方法集成起来,并且借助句法标注和语义分析等更深层的分析技术,才能取得理想的识别效果。 中国地名识别的错误主要集中在以下几个方面: 1.一些地名用字同时也是标识地名存在的边界词,会对地名识别产生一定的负面影响。与左边界词有关的有“来复乡”“在条港”“到塘乡”等,与右边界词有关的有“镇平乡”、“临江市”等。 3.未识别地名简称导致的错误。如“向台、港、澳同胞祝贺新年好”、“王平同志在晋/察/冀军区工作时”。 4.将机构名、人名误识别为地名。如“广州珠江钢琴企业集团”、“邓云乡的《春雨青灯漫录》”。 5.有关地名的歧义冲突。 (1) 连续出现的地名本身发生冲突,如:“在黑龙江省五常市民乐乡”,“一份沉重的调查报告悄然摆上海南省直机关领导干部的案头” (2) 因地名的首字或尾字与其相邻字成词,与普通词发生歧义冲突,如“李冰父子创建都江堰”,“土生土长的澳门人”。 为此,随着地名样本集的扩大和地名识别算法的调整,地名识别的召回率和准确率还可以进一步提高。
5 结束语 本篇论文研究了中国人名和地名识别技术,由于象中国人名和地名这样的未登录词的自动识别是一个重要而又复杂的问题,加之我们的能力有限,所以我们所设计的这个系统也只是一个实验设计,离实用还有一段不小的距离。但是通过这次毕业设计使自己在VB 6.0开发工具和计算机算法设计方面得到了实践锻炼以及知识的综合提高,熟悉了当前中国人名和地名识别的现状以及相关技术,我必将在今后的学习和工作中继续努力,使自己掌握的知识能更好地融入到实际工作中去,为社会发展做出贡献。 在本系统开发结束之余,综观其功能与实现,仍有许多遗憾之处,例如:真实语料规模不够大,造成我们所建立的前期资源中词语库、姓氏姓名库、地名库等的覆盖面不够广,这样会影响到人名和地名识别的准确率。这些希望在以后的学习或研究工作中去进一步完善。 在此,对为组织此次毕业设计做了许多工作的老师们,表示衷心的感谢! 对本论文提出了许多指导性的意见和建议的人,在此表示深切地感谢!
参 考 文 献 [1] 刘开瑛﹒中文文本自动分词和标注﹒北京:商务印书馆,2000﹒20 [2] 刘开瑛 郭炳炎﹒自然语言处理﹒北京:科学出版社,1991﹒1 [3] 孙茂松,黄昌宁,高海燕等﹒中文姓名的自动识别﹒中文信息学报,1995,9(2):16~27 [4] 沈达阳 孙茂松 黄昌宁﹒ 局部统计在汉语未登录词识别中应用和实现方法﹒见陈力为,袁琦编﹒语言工程,北京:清华大学出版社,1997:127~132 [5] 郑家恒 谭红叶﹒基于变换的中文姓名识别技术探讨﹒见黄昌宁编﹒中文信息信息学会会议论文集,北京:清华大学出版社,1998:201~210 [6] 黄昌宁﹒中文信息处理中的分词问题﹒语言文字应用,1997,1:7~13 [7] 刘秉伟,吴立德﹒基于统计方法的中文姓名识别﹒中文信息学报,2000,14(3) :45~52 [8] 黄德根,岳广玲,杨元生﹒基于统计的中文地名识别﹒中文信息学报,2003,17(2) :15~23 [9] 黄昌宁 李涓子﹒语料库﹒北京:商务印书馆,2002﹒154 [10] 郑家恒 刘开瑛﹒自动分词系统中姓氏人名的处理策略探讨﹒见陈力为编﹒计算语言研究与应用,北京:北京语言学院出版社,1993:89~95 [11] 宋柔 朱宏﹒基于语料库和规则库的人名识别法﹒见陈力为编﹒计算语言研究与应用,北京:北京语言学院出版社,1993:111~118 [12] 张民,李生﹒基于规则并举的汉语词性自动标注算法﹒软件学报,1998,9(2) :95~103 [13] 陈小荷﹒现代汉语自动分析﹒中文信息学报,2000,14(3):6~14 [14] 沈达阳﹒基于统计和规则的汉语真实文本自动分词和词性标注系统的研究和实现﹒硕士学位论文﹒北京:清华大学,1996 [15] 谭红叶 郑家恒 刘开瑛﹒中国人名、地名的自动识别研究﹒见黄昌宁编﹒计算语言学文集,北京:清华大学出版社,1999:123~130 [16] 陈小荷﹒自动分词中未登录词问题的一揽子解决方案﹒语言文字应用,1999,3:15~22 致 谢 首先,我向四年来辛勤培养、教育、关心帮助我的老师们表示最诚挚的敬意和感谢。 感谢我的指导老师宋礼鹏在毕业设计上的悉心指导,本文从搜集资料,撰写到定稿都得到了他的精心指导和帮助,值此论文交稿之际,谨向宋老师表示最衷心的感谢!! 感谢我的所有任课老师和领导,在这四年的学习和生活中给了我很大的帮助在毕业设计中用到的许多知识都是他们讲述的,在此表示最衷心的感谢。 最后再次感谢所有曾经帮助过我的人和仍在帮助我的朋友。
首页 上一页 1 2 3 4 下一页 尾页 4/4/4