论文格式
电气工程 会计论文 金融论文 国际贸易 财务管理 人力资源 轻化工程 德语论文 工程管理 文化产业管理 信息计算科学 电气自动化 历史论文
机械设计 电子通信 英语论文 物流论文 电子商务 法律论文 工商管理 旅游管理 市场营销 电视制片管理 材料科学工程 汉语言文学 免费获取
制药工程 生物工程 包装工程 模具设计 测控专业 工业工程 教育管理 行政管理 应用物理 电子信息工程 服装设计工程 教育技术学 论文降重
通信工程 电子机电 印刷工程 土木工程 交通工程 食品科学 艺术设计 新闻专业 信息管理 给水排水工程 化学工程工艺 推广赚积分 付款方式
  • 首页 |
  • 毕业论文 |
  • 论文格式 |
  • 个人简历 |
  • 工作总结 |
  • 入党申请书 |
  • 求职信 |
  • 入团申请书 |
  • 工作计划 |
  • 免费论文 |
  • 现成论文 |
  • 论文同学网 |
搜索 高级搜索

当前位置:论文格式网 -> 免费论文 -> 其他论文

中国姓名和地名自动识别系统的研究(三)

本论文在其他论文栏目,由论文格式网整理,转载请注明来源www.lwgsw.com,更多论文,请点论文格式范文查看
R5:若6≤C(XiMjEk)<10,则Xi为人名简称,MjEK为人名简称:规则强度0.6
   R6:若1≤C(XiMjEk)<6,则Xi为人名简称,MjEk为人名简称;规则强度0.4
  R7:Xi或MjEk的可信度 = 规则强度×C(XiMjEk)
    R8:若存在WFXi或XiWB,则Xi可信度=规则强度×c(XiMjEk)+5
2.1.3  基于结合性的人名识别方法中的相关资源
 基于结合性的方法不需要大规模的中文姓名库,以姓名前后的词性为判断基础,辅以前后称谓、“是、吧”等特征字加以判断。用词性判断姓名的主要规则如下:
 设字符串W1 W2 W3 W4,其中W1为姓氏,W2, W3为单字词,W4为已经切分好的词,如果W3和W4满足下面条件之一,则W3不为姓名:
 l. W3是动词,W4是虚词,如“笑了、醒着”;
 2. W3是虚词,W4是动词,如“亦是、也算”;
 3. W3是动词,W4是方位词,如“翻过、跳上”;
 4. W3是数词,W4是量词,如“三台、8张”;
 再举一些判断姓名的例子如下:
 李豆指着新盖的楼说(“指着”构成动词十助词,所以姓名为李豆)
 张燕被选为代表(“被选”构成介词+动词,所以姓名为张燕)
 刘杰走后(“走后”构成动词+方位词,所以姓名为刘杰)
 丁伟五段(“五段”构成数词+量词,所以姓名为丁伟)
 赵锐一脸苦笑(“一脸”构成数词十量词,所以姓名为赵锐) [12]
2.2  地名识别的相关资源
2.2.1基于统计的地名识别方法中的相关资源
 基本思想是根据大规模的中国地名资源库(包括中国地名库、中国地名用字库)统计出中国地名的用字信息、中国地名的上下文信息以及各种数据表,识别地名时采用匹配地名资源库与结合地名规则识别的方法。相关的数据资源如下:
● 地名的用字信息
 从《中国地名语源词典》和50万字的新闻语料出发,建立了一个含6,214条地名的中国地名样本库,从中统计得到中国地名用字1737个,其中字频最高的100个占总数的49.07%,前。797个占总数的90-39%。对其中每个中国地名用字c,分别统计它作为地名首字、中间字和尾字的出现频数,位置出现频数大于O的首字、中间字和尾字分别有1285个,752个和835个[13]。表2.6、表2.7、表2.8和表2.9分别列出了出现频率最高的前十个地名首字、地名中字、地名尾字和地名用字。
 表2.6 频率最高的前十个地名首字表
地名用字 首字频次 中字频次  尾字频次 总次数
大                               3134 805 2 3941
新 1605 403 6 2014
东      1529 465 31 2024
石       1219 711 99 2089
西      1195 464 46 1705
白      1179 196 4 1379
三        1172 126 0 1298
龙      1169 1064 37 2270
南      1159 490 25 1673
黄       976 118 0 1094

 表2.7 频率最高的前十个地名中字表
地名用字               首字频次 中字频次 尾字频次 总次数
家  8 4285 240 4533
山       227 2871 3725 6923
河     299 2149 2501 4949
水       410 2001 182 2593
族         0 1676 0 1676
子         47 1627 782 2456
庄          47 1558 515 2120
桥         159 1277 1401 2837
城         382 1249 190 1821
溪          91 1181 247 1518
 表2.8 频率最高的前十个地名尾字表
地名用字 首字频次 中字频次 尾字频次 总次数
乡       8 119 36115 36242
镇       121 188 11667 11976
山         227 2871 3725 6823
河         299 2149 2501 4949
县           3 86 1759 1848
桥         159 1277 1401 2837
村           8 939 1275 2222
区           0 16 1141 1157
场        13 322 976 1302
库         93 137 784 1014

 表2.9  频率最高的前十个地名用字表
地名用字 首字频次 中字频次 尾字频次 总次数
乡 8 119 36115 36242
镇  121 188 11667 11976
山   227 2871 3725 6823
河       229 2149 2501 4949
家   8 4285 240 4533
大     3134 805 2 3941
桥     159 1277 1401 2837
水   410 2001 182 2593
子  47 1627 782 2456
龙    1169 1064 37 2270
● 地名的上下文信息
 与中国姓名识别中采用的方法相似,我们从大规模真实文本中统计产生中国地名的左右指界词集,并按照指界词与地名的共现频率划分指示级别。级别从高到低依次为l级、2级、3级、O级(无边界) [14],表2.10和表2.11分别列出了中国地名的左边界信息和右边界信息。
 表2.10 中国地名的左边界信息
边界级别 类型 实例 
1 1级左指界词、地名、地名指代     “原籍”、“开赴” “**省/平邑县” “该县/黄田镇…”
2 2级左指界词、句首 “靠近”、“荣获”
3 3级左指界词 “走访”、“凭借”
 表2.11 中国地名的右边界信息
边界级别 类型 实例  
1 l级右指界词、地名、地名指代 “高原”、“边界” “平邑县/**村”“…**、高碧/等4乡”
2 2级右指界词、句末标点 “筹建”、“郊外”
3 3级右指界词 “推行”、“物价” 
2.2.2  基于规则的地名识别方法中的相关资源
 汉族地名在大规模真实文本中出现的基本上是县级及其以上的地名,动态出现的非常少,所以,在地名动态识别过程中,我们可以将县级及其以上的地名都收录到静态的词表中,就基本上解决了绝大部分汉族地名识别的问题。然后再对极少数地名做动态识别[15] [16]。
 从地名构成上来看,可以把地名拆分为地名核心成分和地名尾两部分。
 例如:地名“浙江省”就是由地名核心成分“浙江”和地名尾“省”组成的,同样地,地名“安苑路”是由地名核心成分“安苑”和地名尾“路”组成的。但是,作为地名标志的“省”和“路”有时候在文本中是不出现的,也就是当我们只说“浙江”时,大家也知道是“浙江省”。
 某些中国地名遵循一定的构词规则,主要如下:
  【a】 单字姓氏+“家”+地名后缀      如:“赵家楼、蔡家坡”
  【b】 数词+“里”+地名后缀          如:“三里屯、五里坪、十八里铺”
  【c】 实体名词+地名后缀             如:“葫芦岛、天鹅湖、狼牙山”
2.3  相关程序设计的技术
 Visual Basic 是新型的计算机程序设计语言,与传统程序设计语言相比,Visual Basic 有许多特点,最突出的特点是可视化,事件驱动和交互式。
可视化
 使用传统的计算机高级语言开发应用程序,应用程序界面都需要程序员编写语句来实现。对于图形界面的应用程序,只有在程序运行是才能看到效果,一旦不满意,还需要修改程序,所以开发工作非常繁杂。
 Visual Basic是Windows 环境下的应用程序开发工具,用它开发应用程序主要有两部分工作:设计界面和编写代码。Visual Basic似乎可视化程序开发工具,在开发过程中看到的界面,与程序运行是的界面基本相同。同时Visual Basic 还想程序员提供了若干界面设计所需要的对象(称为控件),程序员在设计界面是,只要将所需要的控件放到窗口的指定位置即可,整个界面设计过程基本不需要编写代码。
事件驱动
 在传统的或“过程化”的应用程序中,应用程序自身控制了执行哪一部分代码和按何种顺序执行代码。程序从第一行代码执行并按应用程序中预定的路径执行,必要是调用过程。
 用Visual Basic 开发的应用程序,代码不是按照预定的路径执行,而是在响应不同的事件是执行不同的代码片段。事件可以由用户操作触发,也可以由来自操作系统或其他应用程序的消息触发,甚至由应用程序本身的消息触发。这些时间的顺序决定了代码执行的顺序,因此应用程序每次运行是所经过的代码的路径都是不同的。
 因为事件的顺序是无法预测的,所以在代码中必须对执行的“各种状态”作一定的假设。当作出某些设计时,应组织好应用程序的结构,以确保该假设始终有效。在执行中代码也可以触发事件。如果原来的假设该事件仅能有用户的交互操作所触发,则可能会产生意料外的结果。
交互式
 传统的应用程序的开发过程可以分为3个明显的步骤:编码,编译和测试代码。但是Visual Basic 与传统的语言不同,它使用交互式方法开发应用程序,使3个步骤之间不再有明显的界限。
 在C ,Pascal 等语言里,如果编写代码是发生了错误,则在开始编译应用程序时该错误就会被翻译器捕获,此时必须查找并改正错误,然后再次进行编译,对每一个发现的错误都要重复这样的过程。Visual Basic 在编程者输入代码是便进行解释,实时捕获并突出显示大多数语法或拼写错误,看起来像一位专家在监视代码的输入。
 除实时捕获错误以外,Visual Basic 也在输入代码时部分地编译该代码,当准备运行和测试应用程序是,只需要段时间即可完成编译。如果编译器发现了错误,则将错误突出显示于代码中,这时可是更正错误并继续编译,而不是从头开始。

首页 上一页 1 2 3 4 下一页 尾页 3/4/4


相关论文
上一篇:基于知识库的的问答式系统的研究 下一篇:东大人理财理念的调查
Tags:中国 姓名 地名 自动识别 系统 研究 【收藏】 【返回顶部】
人力资源论文
金融论文
会计论文
财务论文
法律论文
物流论文
工商管理论文
其他论文
保险学免费论文
财政学免费论文
工程管理免费论文
经济学免费论文
市场营销免费论文
投资学免费论文
信息管理免费论文
行政管理免费论文
财务会计论文格式
数学教育论文格式
数学与应用数学论文
物流论文格式范文
财务管理论文格式
营销论文格式范文
人力资源论文格式
电子商务毕业论文
法律专业毕业论文
工商管理毕业论文
汉语言文学论文
计算机毕业论文
教育管理毕业论文
现代教育技术论文
小学教育毕业论文
心理学毕业论文
学前教育毕业论文
中文系文学论文
最新文章
热门文章
计算机论文
推荐文章

本站部分文章来自网络,如发现侵犯了您的权益,请联系指出,本站及时确认删除 E-mail:349991040@qq.com

论文格式网(www.lwgsw.com--论文格式网拼音首字母组合)提供其他论文毕业论文格式,论文格式范文,毕业论文范文

Copyright@ 2010-2018 LWGSW.com 论文格式网 版权所有