论文格式
电气工程 会计论文 金融论文 国际贸易 财务管理 人力资源 轻化工程 德语论文 工程管理 文化产业管理 信息计算科学 电气自动化 历史论文
机械设计 电子通信 英语论文 物流论文 电子商务 法律论文 工商管理 旅游管理 市场营销 电视制片管理 材料科学工程 汉语言文学 免费获取
制药工程 生物工程 包装工程 模具设计 测控专业 工业工程 教育管理 行政管理 应用物理 电子信息工程 服装设计工程 教育技术学 论文降重
通信工程 电子机电 印刷工程 土木工程 交通工程 食品科学 艺术设计 新闻专业 信息管理 给水排水工程 化学工程工艺 推广赚积分 付款方式
  • 首页 |
  • 毕业论文 |
  • 论文格式 |
  • 个人简历 |
  • 工作总结 |
  • 入党申请书 |
  • 求职信 |
  • 入团申请书 |
  • 工作计划 |
  • 免费论文 |
  • 现成论文 |
  • 论文同学网 |
搜索 高级搜索

当前位置:论文格式网 -> 免费论文 -> 其他论文

基于知识库的的问答式系统的研究(四)

本论文在其他论文栏目,由论文格式网整理,转载请注明来源www.lwgsw.com,更多论文,请点论文格式范文查看
(55) 俱 乐 部----------场地 (e)部件-整体关系
(56) 俱 乐 部----------董事会 (a)同义关系
(57) 俱乐部赞助者------董事会 (a)同义关系
⒉ 关键词的转换
 上述实体之间的关系,在现实中可以被表达的有多个词语,而且不同文化背景的人,提出的问题模式及所用到的词语也会因人而异。同时,我们也要考虑到,对
 体育领域熟悉或不熟悉的人,他们提出的问题模式是否符合这一领域,针对这样的问题,系统该如何解决呢? 例如:易建联在哪个球队打球?这样的问题很大众化,也是我们日常所遇见的一种问题模式。尽管我们知道这问题的本质是要询问“易建联在哪个球队?”,但是在网络信息中,根本无法找到类似“易建联在**球队打球”这样的答案,其它的诸如“谁是CBA季后赛的MVP?”也是如此。关键词的转换是为了解决这样的问题而准备的。
 考虑到一般用户所提出的查询请求中所包含的信息相对较少,在答案的句子中,某些词常常不是原来问题的关键词,而是这些词的同义扩展,如果直接用于网络搜索引擎则会造成检索结果效率的低下。例如:问题是“参加2005-2006赛季CBA比赛的球队都有哪些?”回答的答案却是:“北京金隅俱乐部……”。问的是球队,答案却是俱乐部,这就造成了关键词查询失败,因此我们要对关键词进行适当的转换。
 关键词的转换虽然提高了系统的召回率,但如果扩展不适当会极大的降低检索的准确性。一般的方法是使用同义词扩展、语义扩展等。对关键词的转换添加了很多限制条件,比如只对名词的关键词进行扩展。可用Word net或者其他的同义词词典来扩展关键词。还有一些问答系统通过统计的办法来扩展关键词。这种方法需要大量的问题和答案语料来进行训练。每一类的问题所对应的答案一般都有某种共同的特性。例如,对于询问地点的问题,答案中经常会出现“在、位于、地处”等关键词。所以通过统计,找出这些词后,就可以把它们加到query 当中。另外还有一些问答系统是用检索返回来得相关文档来对关键词进行扩展[16]。
 转换后的关键词的重要性往往比从问题中提取的关键词的重要性大,为了提高系统的准确性,很多问答系统又对关键词附了权重,以此区分他们之间的重要性。
 在本模块关键词的转换过程中,对关键词的转换遵从以下几个原则:
对句子中给出的关键词,寻找其近义词、同义词
口语化的关键词进行书面化的转换
网络上使用频率较高
符合人们的日常用词习惯
符合特定领域的用词习惯
下面给出本系统中常见的关键词的转换表,转换表如表3.2所示:
          表3.2 关键词的转换表                                继表3.2       

关键词 关键词转换
有 共有、拥有、允许、包含、包括、管理
参加 参赛、竞赛、比赛、允许、批准、同意
参加 参赛、竞赛、比赛
简介 介绍、历史
简介 介绍、历史
每周最佳 出色、最好、突出
CBA常规赛MVP CBA常规赛MVP
CBA季后赛MVP 决赛、总决赛
CBA单场最 技术统计、记录
球员球队 效力、隶属、服务、打
球员签约 效力、隶属、服务
技术统计 记录、情况、得分、分数、表现
在 打、位置
球员号码 球衣、号
球员简介 籍贯、年龄、多大、年薪、身高、体重、生日、出生、多高、多重
地方 地点、位于、在、坐落
球员 签约、拥有
教练 执教、聘请、签约、指导、效力、隶属、
简介 介绍、情况
关键词 关键词转换
球队赞助商 赞助、俱乐部、隶属、合同、签约
董事长 老板、负责人
主场 城市
球队简介 正式、合法、使用、注册、记录、历史
成立 组建、组建于
成绩 记录、战绩、比分
排名 记录、创下、历史、战绩
颜色 服装
颜色 服装
教练简介 介绍、情况、个人简介、个人情况
服务 执教、聘请、签约、指导、效力、隶属
冠军 第一名
安排 计划、日程安排、比赛安排
比赛规则 有 、按照、使用、遵从
半决赛记录 战绩
CBA南北区 南区、北区、南方、北方
CBA球迷 Fans、粉丝
参加比赛 打比赛、参赛、出赛
城市 地点、位置、地区、位于、落于
球队比赛 交手
比赛 比赛、轮、次数、场

                   
⒊ 模块的具体实现
 在对关键词模式的转换中,我们立足于对现有的关键词进行合理的扩展,即对体现关系的关键词进行合理的近义或者同义扩展,并对疑问词的位置进行适当的调换,力争全方位、多角度、合理化的转换问题模式。转换的关键是用网络中使用频率较高的词语代替句子中原有的关系词。例:CBA包括多少支球队?初步划分为:CBA+包括+球队。“包括”一词在网络中出现的频率远远低于“有”,所以,在问题模式转换过程中,将“包括”替换为“有”,提交给网络的模式即为:CBA+有+球队。
 该模块的代码如下:
输入 string;
Sqlstr=”select mainkey  from   biao1
 Where mainkey-type=
 (select mainkey-type
 From  biao2
 Where enlarge-text=’$string’ )”
String=sqlstr
输出 string
 上述代码的作用是:依次将问题理解模块传来的关键词,依次与关键词转换表中的词相匹配,有则返回主关键词,和问题理解模块分析出的实体词一起提交给网络,进行下一步的操作。
 这其中涉及到对关键词的扩展表的查询,借用了SQL server中查询语句“select”,通过获取问题分析传来的关键词,对照扩展表,进行查询、转换。
 其表结构如表3.3、表3.4所示:
                   表3.3 关键词表
字段名 数据类型
Mainkey 文本
Mainkey-type 数字
                  
                   表3.4 关键词转换表
字段名 数据类型
Enlarge-text 文本
Mainkey-type 数字
 当然,此种转换方式存在一定的局限性. 例如:含有“球队+参加+比赛”,既可以问参加比赛的球队数量,也可以用来问具体的哪些球队。为了解决这一局限性,我们提出了常见问题知识库的建立。
3.2.3  常见问题知识库的建立
 常见问题知识库的建立是为了这样的一个目的:直接给用户一个简介的答案。由于网络信息的繁杂,及该系统的局限性等原因,对部分问题无法给出具体答案。我们觉得有必要建立这样一个库,一个立足于网络的常见问题知识库。即将用户常见的、关心的问题,整理后存放入库中。用户点击相关问题时,即可进入库中,查看其答案。部分问题的答案因其篇幅等原因,暂时给出相关网站,用户点击问题后,在显示相关网站的同时,触发网络连接,给用户具体的网页截取图。
 在此库中,我们将问题分为以下几种类型:球员、球队、比赛、其它。
 其表结构如表3.5所示:
                        表3.5 常见问题库表
字段名 数据类型
question text
answer text
type text
               
 此模块运行界面如图3.3所示:
 
                                 图3.3 常见问题库
该模块的建立代码如下:
Dim myconn As New ADODB.Connection
Dim rs As New ADODB.Recordset
strconn = "provider=microsoft.jet.oledb.3.51; data source=D:\wenjian\db5.mdb"
Myconn.Open strconn
sqlstr = "select * from question where type like'球员'"
rs.Open sqlstr, myconn
List1.Clear
If Not rs.EOF Then
While Not rs.EOF
List1.AddItem "" & rs.Fields (1) & ""
rs.MoveNext
Wend
End If
 根据上述代码,可以将一些常见的问题依次分类的加入到库中,用户查看时可以根据自己的问题进行相关查询。必要的时候,可以对该库进行相应的修改。
 上述模块及关系的划分,在具体的实现过程中可能有些变动,各种实体之间存在的关系可能也不止一种,体现关系的关键词也会与现实存在差异。我们做这个系统的,一是为了检验我们前面所提出的“基于知识库的问答系统”是否合理,是否可以顺利实现,另一方面也希望对研究问答系统的其它模型有稍许帮助。系统中存在的种种问题及不足,我们力求最小化;模块的划分及选择,我们力求大众化;答案的模式取舍,我们力求简单化。
   实验结果和分析
 实验平台要求
 Visual basic 6.0能够运行的条件:Windows95、Windows NT或者更高的版本;Microsoft Windows95支持的cd-rom. Microsoft Windows95支持的VGA或分辨率更高的监视器; Windows 95/98下要求的24MB内存, Windows nt下要求32MB以上的内存[11] 。
 具体实验
 实验一:CBA有多少球队?程序运行的界面如图4.1所示:
 
                              图4.1 问题查询
 类似的:CBA有多少支球队?CBA有多少支参赛球队?CBA有几支球队?等,系统均可以给出答案。
 实验二:你知道有哪些球队参加2005年CBA联赛?对这样的问题,系统暂时不能实现。程序运行界面如图4.2所示:
 
                               图4.2 问题查询
 结果分析
 该系统可以对简单的问题进行回答并返回用户所需要的答案,但答案的模式并不是最简单;系统对用户的问题模式的分析并不十全十美,有时还会出现歧义,返回的答案也就出现错误;由于汉语的多样性、复杂性,系统并不能保障不会出现任何冲突,这也是此程序今后的研究方向。

  系统的不足与展望
 本系统涉及的是一个简单的、基于限定领域的问答系统,对用户提出的问题,根据已有的问题模式,分析用户的问题,再根据语义网络知识库对问题进行转换处理,然后根据具体问题的搜索策略在因特网上进行搜索,得到相关的文本信息,在答案抽取阶段再根据答案抽取规则从文本信息中提取出准确的答案,返回给用户。
 在设计及实验过程中,我们发现了不足:本系统中的问题理解部分,采用的分词方法是群举法,人为定义规则的方法对句子进行简单的划分和理解,再匹配可能的关键词,进行转换,这种做法虽然设计上比较简单,但会出现一些问题,比如:系统不能准确分词,系统很难在语义的程度上理解用户所提出的问题。这样往往会造成许多冲突(一个问题,多个答案)。虽然本系统努力尝试把已发现的冲突解决,但是并不能保证所有冲突都已不存在(很多还没有发现),这样随着系统的数据库扩大,这种冲突会不断的被发现,造成不可避免的错误。
 这次我们的问答系统只是简单的实验,离理想的目标还很远,但是我们相信,随着网络和信息技术的快速发展,中文自动问答系统不仅可用作智能搜索引擎,还可以用在远程教育,企业客户咨询等方面。我们有理由相信:不久的将来问答系统将会取得重大的突破并且得到广泛的应用。
 
  结束语
 经过近四个月的努力,我们的基于知识库的问答系统的设计基本完成。在整个的设计过程中,我们参阅了大量的资料,参考了其他一些系统,进行了大量的分析和研究工作,掌握了不少知识和技术。通过这次设计,使我对Visual Basic 6.0有了更深的认识与掌握;对 Access数据库有了进一步的了解;更重要的是让我学会了分析问题、处理问题的能力。在这次设计中,我的实际操作能力也有了很大的提高。没有实际的操作,对知识的掌握是不牢固的,只有在不断的实践中才能不断的提高自己的个人素质,掌握更多的东西。
 毕业设计是一个学习过程,它既是我们大学四年所学知识的总结,又是促使我们发现新问题、探究更新更广的领域的开始。
 就这次的毕业设计来讲,我们做得还很不够,到现在为止还是有很多的遗憾,只有通过今后继续努力学习,来弥补今天的遗憾。
 四年大学的学习生活已接近尾声,回顾这几年的学习、工作与生活,尽管遇到过许多困难和压力,但总的来说还是令人满意的。在老师、同学们的帮助下和自己的努力下,学习上我感觉进步很大,劳动得到了收获。这段时间的学习将使我受益终身,为我以后的学习和工作打下了良好的基础,为自己的美好大学生活画一个圆满的句号!
      
                        参 考 文 献
 [1]  崔桓,蔡东风,苗雪雷﹒基于网络的中文问答系统及信息抽取算法研究﹒中文信息学报,2004,18(3):24~31
 [2]  关毅,王晓龙﹒面向专业网站的中文问答系统研究﹒哈尔滨工业大学学报,1999,5(3):12~19
 [3]  张刚 刘挺 郑实福﹒开放域中文问答系统的研究与实现﹒见曹右琦编﹒中国中文信息学会二十周年学术会议,北京:清华大学出版社,2001,11~19
 [4]  王树西 白硕 姜吉发﹒基于自由文本的模式推理﹒见吴立德编﹒第一届全国信息检索与内容安全学术会议,上海:复旦大学出版社,2004:349~354
 [5]  白硕﹒大规模内容计算﹒见孙茂松编﹒语言计算与基于内容的文本处理,北京:清华大学出版社,2003:16~24 
 [6]  王永庆﹒人工智能原理与方法﹒西安:西安交通大学出版社,1999﹒297~350
 [7]  王晓龙﹒自然语言处理的若干问题研究﹒哈尔滨工业大学学报,2001,7(1):29~35
 [8]  王睿 姚天昉﹒基于实体语义关系的中文问题-答案关系研究﹒见吴立德编﹒第一届全国信息检索与内容安全学术会议,上海:复旦大学出版社,2004:252~259
 [9]  董振东,董强﹒关于知网-中文信息结构库﹒http://www.keenage.com,2000-10-05
 [10] 张宇 刘挺 文勖﹒基于改进贝叶斯模型的问题分类﹒见吴立德编﹒第一届全国信息检索与内容安全学术会议,上海:复旦大学出版社,2004:236~242
 [11] 潘宇斌,陈跃新﹒基于Ontology的自然语言理解﹒计算机技术与自动化,2003,22(4):71~74
 [12] 马秀峰﹒Visual Basic程序设计教程﹒山东:济南山东大学出版社,2000﹒30~50
[13] 严蔚敏 吴伟民﹒数据结构﹒北京:清华大学出版社,1991﹒118~150
[14] 王珊 陈红﹒数据库原理教程﹒北京:清华大学出版社,1997﹒35~103
 [15] 李鑫,杜永萍﹒基于句法信息和语义信息的问题分类﹒见吴立德编﹒第一届全国信息检索与内容安全学术会议,上海:复旦大学出版社,2004:243~251
 [16] 陈康 武港山﹒基于Ontology的信息检索技术研究. 见吴立德编﹒第一届全国信息检索与内容安全学术会议,上海:复旦大学出版社,2004:99~105

  致  谢
 首先,我向四年来辛勤培养、教育、关心帮助我的老师们表示最诚挚的敬意和感谢。向认真传授给我知识的,孜孜不倦的对我教导的所有老师表示感谢,他们的教诲将使我受益终身。
 感谢其他所有给予我支持的人。在此再次表示衷心的感谢!

首页 上一页 1 2 3 4 下一页 尾页 4/4/4


相关论文
上一篇:绳带在服装设计中的应用——百变.. 下一篇:中国姓名和地名自动识别系统的研究
Tags:基于 知识库 的的 问答 系统 研究 【收藏】 【返回顶部】
人力资源论文
金融论文
会计论文
财务论文
法律论文
物流论文
工商管理论文
其他论文
保险学免费论文
财政学免费论文
工程管理免费论文
经济学免费论文
市场营销免费论文
投资学免费论文
信息管理免费论文
行政管理免费论文
财务会计论文格式
数学教育论文格式
数学与应用数学论文
物流论文格式范文
财务管理论文格式
营销论文格式范文
人力资源论文格式
电子商务毕业论文
法律专业毕业论文
工商管理毕业论文
汉语言文学论文
计算机毕业论文
教育管理毕业论文
现代教育技术论文
小学教育毕业论文
心理学毕业论文
学前教育毕业论文
中文系文学论文
最新文章
热门文章
计算机论文
推荐文章

本站部分文章来自网络,如发现侵犯了您的权益,请联系指出,本站及时确认删除 E-mail:349991040@qq.com

论文格式网(www.lwgsw.com--论文格式网拼音首字母组合)提供其他论文毕业论文格式,论文格式范文,毕业论文范文

Copyright@ 2010-2018 LWGSW.com 论文格式网 版权所有