电气工程
会计论文
金融论文
国际贸易
财务管理
人力资源
轻化工程
德语论文
工程管理
文化产业管理
信息计算科学
电气自动化
历史论文
机械设计
电子通信
英语论文
物流论文
电子商务
法律论文
工商管理
旅游管理
市场营销
电视制片管理
材料科学工程
汉语言文学
免费获取
制药工程
生物工程
包装工程
模具设计
测控专业
工业工程
教育管理
行政管理
应用物理
电子信息工程
服装设计工程
教育技术学
论文降重
通信工程
电子机电
印刷工程
土木工程
交通工程
食品科学
艺术设计
新闻专业
信息管理
给水排水工程
化学工程工艺
推广赚积分
付款方式
首页
|
毕业论文
|
论文格式
|
个人简历
|
工作总结
|
入党申请书
|
求职信
|
入团申请书
|
工作计划
|
免费论文
|
现成论文
|
论文同学网
|
全站搜索
搜索
高级搜索
当前位置:
论文格式网
->
免费论文
->
其他论文
中国姓名和地名自动识别系统的研究(二)
本论文在
其他论文
栏目,由
论文格式
网整理,转载请注明来源
www.lwgsw.com
,更多论文,请点
论文格式范文
查看
1 军 1.6327 1.6327
2 伟 1.3592 2.9919
3 静 1.3281 4.32
4 红 1.1702 5.4902
5 明 1.1533 6.6435
6 涛 1.0321 7.6756
7 颖 0.9587 8.6343
8 平 0.9559 9.5902
9 磊 0.8939 10.4841
10 杰 0.8882 11.3723
表2.4 人名首字用字频率最高的前十个字
频率序号 人名首字用字 占总数百分比(%) 累计百分比(%)
1 淑 2.2807 2.2807
2 玉 2.2532 4.5339
3 秀 2.0755 6.6094
4 晓 1.9042 8.5136
5 文 1.7499 10.2635
6 建 1.6627 11.9262
7 志 1.3758 13.302
8 刁 1.2733 14.5753
9 桂 1.186 15.7613
10 春 0.9929 16.7542
表2.5 人名尾字用字频率最高的前十个字
频率序号 人名尾字用字 占总数百分比(%) 累计百分比(%)
1 华 3.6632 3.6632
2 英 3.388 7.0512
3 兰 2.108 9.1592
4 平 1.9233 11.0825
5 珍 1.843 12.9255
6 明 1.6741 14.5996
7 荣 1.5711 16.1707
8 生 1.5122 17.6829
9 芳 1.3276 19.0105
10 琴 1.2641 20.2746
(3)姓氏用字的构词特征
根据姓氏用字的构词,可将姓氏用字分成以下三类:
绝对封闭式姓氏用字。有些姓氏用字不可独立成词。不能与其它字构成词,只能作姓氏用,如:“邓、聂”。这类字称作绝对封闭式姓氏用字。
相对封闭式姓氏用字。有些姓氏用字虽然不能独立成词,但能与其它字构成词,如:“刘”字就可与其它字构成“额前的刘海儿,”等词。这类字称作相对封闭式姓氏用字。
开放式姓氏用字。有些姓氏用字可以独立成词,妇:“汤、马”等,这类字称作开放式姓氏用字。
(4)名字用字的构词特征。
根据名字用字的构词能力,可同样将名字用字分成以下三类:
【a】 绝对封闭式名字用字。有些名字用字既不可独立成词,又不能与其它字构成词,只能作名字用,如:“逵”,这类字称作绝对封闭式名字用字。
【b】 相对封闭式名字用字。有些名字用字虽然不能独立成词,但能与其它构成词,如:“睿”就可与其它字构成“睿智”一词。这类字称作相对封闭式名字用字。
开放式名字用字。有些名字用字可以独立成词,如:“爱”。这类字称作开放式名字用字。3)和(4)的分类是针对中国人名的识别而言,在真实文本中也存在着一些特殊情况。象“邓”这个字可以是中国地名用字,如:邓家庄,也可以是译名用字,如:秀兰·邓波儿。
中国姓名的限制成分
(1)身份词:包括职务、职业、头衔的词语和亲属称谓语等。有些只用在人名之前,称为前称谓词.如:青年、战士、运动员、工人、教师、影星、犯人、丈夫、妻子等;有些只能用在人名之后,叫后称谓词,如:之流、阁下等;有些在人名前或前均可,叫做双向称谓词,如:教授、总理、小姐等。表示职业的身份词有时加修饰词如“副总理”、“副经理”的“副”,“代厂长”、“代市长”的“代”等。
(2)地名或单位名,它们用在人名前边,如:“太原钢铁公司李双良”,“中国女子排球队周小兰”等。
(3)成串人名之间用顿号和“和”、“同”、“及”等连词连结,此时限制性成分放在名字串尾时,与最后一个人名之间加“等”。如:“聂卫平、马晓青、刘小芳等围棋国手”。
(4)指界动词,有些动词常常紧跟在姓名的后面出现,可作为人名的右边界标志。单字动词有:说、讲、谈、称、是、获、抵、率、偕等。双字动词有:报导、会见、介绍、邀请、应邀、会晤、参加、出席、访问等[10]。
2.1.2 基于规则的人名识别方法中的相关资源
在自然语言处理中,基于统计的方法的优点是对不确定事件的定量描述.因此必然会抑制小概率事件的发生,基于规则的方法的优点在于根据上下文对确定事件的定性描述,有些统计方法无法解决的问题利用规则很容易解决。但它本质上说是一种确定性的演绎推理方法,这就决定了它在自然语言处理中不可能具有很强的鲁棒性。因此,最好的办法是将二者结合,即:统计与规则相结合的方法。它综合了基于规则的方法能够反映语言的约束关系和递归现象的优点以及基于统计的方法适合处理非受限的文本,系统鲁棒性更强,运行速度更快的优点[11] [12]。
● 建立人名规则库
1、姓名用字规则
设:C是汉字字符集合,w是词表中所有词的集合,则构词规则:对于某个形如 CmXiEkCn或CmXiMjEkCn的片语,且XiEk或XiMjEk是潜在姓名
若:CmXi∈W或EkCn∈w并且在文本中,Cm不用于姓名前或Cn不用于姓名后,则XiEk或XiMjEk不是姓名。
如:在片语“繁荣昌盛”中,由于“繁”不用于姓名前,根据此规则,“荣”不是姓氏。
词型规则:在形如CmXi的片语中,若Cm∈{数词、多、各…}则,在此片语中,Xi不作姓氏。
如:在片语“多项荣誉”中,根据此规则,“项”不是姓氏。
单名扩展规则:如果经过分析后的句子结构为:sn+Cn+W并且sn右界不确定,snCn右界确定,则snCn组成复名。
如:片语“赵德荏说”中,如果最后的识别结果是“赵德”,由于“说”是指界词,系统输出“赵德荏”。
2、称谓扩展规则
设K={副、总、代、代理、助理、常务、名誉、荣誉},wi∈Titles,则KjWk,KiKjWk,KnKiKjWk也是称谓词。
如:“经理”是称谓词,则“总经理、副总经理、”也是称谓词。
3、姓名边界确定规则
·左界规则:若姓名前面是一称谓,或是一个标点符号,或姓名在句首。或姓 名的的姓氏使用频率为100%.则姓名的左界确定。
·右界规则:若姓名后面是一称谓,或是一个指界动词,或是一标点符号,或姓名在句尾,或姓名的的名字尾字使用频率为100%。则姓名的右界确定。
如:片语“教授王文和说”中,“教授”是称谓词,“说,’是指届词,因而“王文和”的左右界确定。
·并列规则:连续人名中,如果有两个以上的姓名确定,那么其它并列的字串是姓名,并且连词不作为姓名的一部分。
如:片语“青工王玉开、李泽军和林龙等人”中,由于是人名并列,因此按此规则,“和”不作为姓氏。
4、冲突发现规则
在我们的系统中,将冲突分为两类:同类冲突、异类冲突。同类冲突:自动辨识时产生的有重合部分的两个或多个同一类型的专名。异类冲突:自动辨识时识别出的姓名与其它专名或非专名词语存在重合部分。如:片语“浙江农民企业家朱重庆碰到过类似怪事”中,“朱重庆”、“重庆”是异类冲突.在每一种专有名词的识别中,都先解决同类冲突。在中文姓名的识别中.同类冲突表现为两种形式:同姓异名对、异姓异名对。
·同姓异名对的寻找规则:如果两个PName的起点相同,终点不同,则为一同
异名对。
·异姓异名对的寻找规则:如果两个PName起点不同,但有交叉部分,则为一异姓异名对。
如:片语“选举王林海为新的村长”中,“王林、王林海”为同姓异名对,“王林海”与“林海为、林海”为异姓异名对。
5、冲突处理规则
·屏蔽规则: 若PName∈protects则PName不是中文姓名。
·修饰规则:若Xi与“.”字符距离不超过2个字符的距离,则否定此姓名。
·同姓异名对右界否定规则:若同姓异名对中有一个姓名的右界确定,则否定另一个姓名。
·异姓异名对左界否定规则:若异姓异名对中有一个姓名的左界确定,则否定另一个姓名。
·局部频度否定规则:设[PName1.PName2]为一同姓异名对或异姓异名对,且PName1,PName2的边界均未确定,若f(PName1)>f(PName2),则否定Pname2;反之,则否定PName1。
·概率否定规则:Np(sn)=FFreq×Efreq Np(pn)=FFreq×MFrexl×Efreq其中:Ffreq、Mfreq、Efreq分别为根据姓名库中统计得到的姓氏使用频率、名字首字使用频率、名字尾字使用频率。
设[PNamel,PName2]为一同姓异名对或异姓异名对,且。PNamel,PName2的边界均未定,且局部频度相同。若lg(Np(PNamel))/length(PName1)>lg(Np(PName2))/length(PName2)则否定PName2;反之,则否定PName1;Length~Name)表示PName的字符串长度,最长为4。
6、实例规则
在真实文本语料库的基础上,建造了包含7014个句子的实例库,根据下列符号化减后得到规则2520条。CN:中文姓名
{}:可选项标识
Xstring:任意字符
DataString:日期
Titles:称谓指界词
Numbers:数字
例如:实例:“第五医院的主治医师祝如东同样说:”可作如下简化:Xstring的TitlesCN{ 同样 }Titles
这样在片语“人大代表老蔚可认为”中,由于“代表、认为”是称谓指界词,所以“老蔚可”是姓名。
7、实例规则评价
系统中以规则使用之后的正确率作为评价规则的依据。规则评价函数定义为:F=Name/Total,其中Fi表示第i条规则的可信度,Total表示第i条规则应用总次数,Num表示第i条规则作用后的正确次数。
8、非全称姓名生成规则
【a】 特殊简称姓名生成规则
R1:设:K1={小、老},如果Ci∈K则CiXi是一个简称潜在姓名。
R2:K2={工、总},如果Ci∈K则XiCi是一个简称潜在姓名。
R3:对于某个形如XiWb的片语,如果WB是后称谓,则Xi是姓氏。
【b】 全称推出规则
对于某个形如的{wF}XiMjEk{wB}片语,WF、WB∈ Titles,{}表示可选项,C(XiMjEk)表示中文姓名XiMjEk的可信度。
R1:若c(XiMjEk)=10则Xi为人名简称,MiEk为人名简称;规则强度1.0
R2:若6≤C(XiMjEk<10则Xi为人名简称,MjEk为人名简称;规则强度O.8
R3:若6≤C(XiMjEk)<IO并且存在WF,则Xi为人名简称,MjEk为人名简称;规则强度1.0
R4:若6≤C(XiMjEk)<1O并且存在WB,则Xi为人名简称,MjEk为人名简称;规则强度1.0
首页
上一页
1
2
3
4
下一页
尾页
2
/4/4
相关论文
上一篇
:
基于知识库的的问答式系统的研究
下一篇
:
东大人理财理念的调查
Tags:
中国
姓名
地名
自动识别
系统
研究
【
收藏
】 【
返回顶部
】
人力资源论文
金融论文
会计论文
财务论文
法律论文
物流论文
工商管理论文
其他论文
保险学免费论文
财政学免费论文
工程管理免费论文
经济学免费论文
市场营销免费论文
投资学免费论文
信息管理免费论文
行政管理免费论文
财务会计论文格式
数学教育论文格式
数学与应用数学论文
物流论文格式范文
财务管理论文格式
营销论文格式范文
人力资源论文格式
电子商务毕业论文
法律专业毕业论文
工商管理毕业论文
汉语言文学论文
计算机毕业论文
教育管理毕业论文
现代教育技术论文
小学教育毕业论文
心理学毕业论文
学前教育毕业论文
中文系文学论文
最新文章
热门文章
推荐文章