基于知识库的的问答式系统的研究(一)

本论文在其他论文栏目，由论文格式网整理,转载请注明来源www.lwgsw.com,更多论文,请点论文格式范文查看

基于知识库的的问答式系统的研究
引言
问答系统的产生
语言是人类思考问题和交流思想的工具,是思维表达的载体,人类百分之七十以上的信息是通过自然语言来传递的。因此,自然语言理所当然的成为人机交互语言的首选。
近年来,随着Internet在世界范围内得到了迅猛的发展,网络信息也随之急剧增加。对网上信息的存取、挖掘、检索、过滤等问题的探索及研究成为信息领域的热点,极大地推动了信息检索相关技术的发展。信息检索、搜索引擎（如Google、Baidu等）在很大程度上方便了人们对信息的快速查询，但是,如何在这些海量信息中快速、准确地找到所需要的信息似乎变得越来越困难。例如：网络信息过于复杂、繁冗,用户不能有效的识别、使用；计算机不能识别不同的日常术语,甚至给出与用户的问题根本无关的信息；计算机一般只能提供相关信息,给出最后答案的形式无法满足人们的需求。
传统的搜索引擎查询序列是一系列关键词的组合,而不是以自然语言的形式提供的,同时其返回的结果是与查询相关的网页的列表,用户必须自己从这些文档中找到相关的信息,占用了相当大的时间。为了达到合理地、科学地管理现有的信息资源,有效的利用信息资源并在最短的时间里提供给用户简洁而方便的信息,人们提出了问答式系统。
问答式系统,是指系统接受用户以自然语言形式描述的问题,并从大量异构资料中查找出能回答该问题的准确、简洁的答案的信息检索系统[1]。目前我们所熟悉的问答系统大致可以分三类：基于常问问题集的问答系统，基于百科知识的问答系统以及开放域的问答系统。基于常问问题集的问答系统又可以作为后两种问答系统的一个组成部分，如果用户的提问与以往的记录相符，可直接将对应的答案提交给用户，免去了重新组织答案的过程，可以提高系统的效率。
问答系统发展及现状
问答式系统的发展已有很长的历史了,早在60年代人工智能研究刚开始的时候,人们就提出了让计算机用自然语言来回答人们的问题,说的就是指自动问答系统。过去的一段时间里,我们所接触到的只是它的雏形---问题回答系统[2]。在这一研究方向上最早的尝试是1972年Winograd研制的SHRDLU系统,该系统可以简单的回答一些物理问题。
早期比较著名的问题回答系统包括Dyer的BORIS系统等。Lehnert[3]等人对自然语言问句的分类方面进行了有益的探索。早期的系统通常以手工编写的领域知识,用户经常询问的问题及一些报刊文章作为系统的基础,限于当时的技术条件,问题回答系统技术的研究在很长的一段时间里发展十分缓慢。诞生于1993年的START[4]系统是第一个面向互联网的自然语言问答系统(由麻省理工学院（MIT）开发,它从1993 年开始发布在Internet)。可以回答一些有关地理、历史、文化、科技、娱乐等方面的简单问题。比如：对于问题“What is the longest river in the world?”Start 将会回答“With a length of 4,180 miles, the Nile River is the longest river in the world。”另外还有一个比较成熟的问答系统Answer Bus 的网址是：http://misshoover.si.umich.edu/~zzheng/qa-new/.Answer Bus是个多语种的自动问答系统,它不仅可以回答英语的问题,还可以回答法语、西班牙语、德语、意大利语和葡萄牙语的问题。在此背景下,问题回答系统逐渐演变成了问答系统。我们相信,在未来的时间里,它会进一步演变。
问答系统同时兼具了信息检索系统[5]和信息抽取系统[6]的优点。首先,它采用自然语言问句的方式与用户进行交互,这是广大的计算机用户所乐于接受的、最为简单直观的交互方式。同时,由于自然语言问句丰富的表现力,而使对问题的精确刻画成为可能。其次,它直接返回蕴含答案的文本片断,极大地提高了用户寻找答案的效率。第三,它易于实现,而且对应用领域没有十分苛刻的要求,因此,这种系统成为Internet信息搜索领域的一个非常引人注目的研究热点。但是它仍有一些不足之处：首先是采用自然语言问句的方式,这样虽然方便了用户的使用和操作,但汉语言本身的丰富性给此系统的实现带来了繁重的工作。其次是目标框架的建立。在对自然问句的处理的过程中,可提取的关键词是丰富的,因为不同的人有不同的提问方法,对应就要产生不同的关键词。因此系统要具备自学习能力,以丰富目标框架,增加寻找答案的正确率。
近几年,随着网络和信息技术的快速发展及人们想更快地获取信息的愿望，重新促进了自动问答技术的发展。最近有越来越多的的公司和科研院所参与了自动问答技术的研究。比如,微软和IBM等著名的跨国公司。在每年一度的文本信息检索（TREC）会议上,自动问答（Question Answering Track）是最受关注的主题之一。越来越多的大学和科研机构参与了TREC 会议的Question Answering Track。在2000 年10 月召开的ACL2000 国际计算语言学学术会议上,有一个专题讨论会,题目是”Open-Domain Question Answering”。
国内也有一些高等院校及研究机构参与了自动问答技术的研究:中科院计算所、复旦大学、哈尔滨工业大学、香港科技大学等。但是参与中文自动问答技术研究的科研机构比较少,而且基本没有成型的中文自动问答系统。
问答系统问答原则
（1）允许用户输入自然语言问句
<1>符合人的习惯
<2>精确刻画信息需求
（2）系统直接返回答案或者蕴含答案的文本片断
<1>提高信息检索的效率
<2>精确度是问答式信息检索的首要指标
本文研究内容及方向
在本文，我们提出基于知识库的问答系统，可以理解它是上述三类问答系统的一种综合。
1.4.1 基于知识库的问答系统
所谓“基于知识库”问答式系统,是这样的一个系统：接受用户以自然语言形式描述的问题(例如：CBA代表什么意思？),通过模式匹配及关键词替换,然后把标准关键词提交给网络，查找网络上的信息并抽取相关信息,返回给用户准确、简洁的答案(例如：“中国篮球协会”或者：“Chinese Basketball Association”)。因此,知识库问答系统与根据关键词检索并返回相关文件集合的传统搜索引擎有着根本的区别。它能够向用户提供真正有用、精确的信息,将是下一代搜索引擎的理想选择之一。可以想象,经过几年的发展,基于知识库的问答系统可成为自然语言处理领域和信息检索领域的重要分支和新兴研究热点[7]。
本系统是一个基于定领域---体育领域（CBA）的问答系统。系统需要对用户提交给它的自然语言问句进行分析,理解用户问句,找出合理的特征及关键词并提交给后台,后台通过与互连网的连接、查找、处理,返回给用户相应的的答案。
问题分析、信息搜索和答案抽取是该系统的三个主要部分。对于问答系统来说,首先要多方位的、充分的、正确的理解用户提出的问题,明确用户的提问意图。故在本系统中,问题分析是一个重点。它包括：问题的分类、关系的确定、关键词的提取、关键词的扩展。问题分析之后,紧随其后的是信息的网络搜索。借助于网络搜索,可在网络中找出相关文档（我们使用互联网搜索引擎作为主要工具）。答案抽取部分是问答系统难度较大的一个模块,它返回的答案形式多样化给答案的归纳及抽取带来了不便。
本文通过对上述三个模块的研究,设计并实验了一个基于知识库的问答系统,并对该系统进行了一系列的测验。
1.4.2 该问答式系统研究目标
⊙研究基于Web的面向大规模真实网络文本的问答系统
⊙目前为受限的特定领域（体育领域）
1.4.3 研究该问答系统的意义
人们可以以自然语言的问句方式对该问答系统提问，把整个问题直接交给问答系统，该问答系统将转到自动分析用户的问句，结合自然语言处理技术及相关的语义关系网，进行问题的模式识别、转换，到常见问题知识库或者互联网中搜索相应的答案，再把答案返回给用户。这样用户就可以通过该问答系统方便地获得自己想要的信息。简而言之，问答系统就像一个知识渊博的专家，通过对问题理解，可以快速、准确、直接返回给用户想要的答案[8]。比如，用户提交一个问题“2005-2006赛季CBA的冠军是谁？”问答系统将会直接给出答案“广东队”。可以看出，问答系统要比传统的搜索引擎方便、快捷、高效。
各章节内容简介
第二章相关技术简介；
第三章详细介绍了系统的设计与实现方法；
第四章介绍实验的结果，及对实验结果的分析；
第五章系统的不足及今后方向.
第六章结束语

相关技术介绍
为了实现本系统的功能，即基于知识库的的问答式系统（CBA方面），我们拟采取了以下辅助工具：
●具体的分析方法及关系模型，参照‘知网’（Hownet）[9]
●用可视化语言Visual Basic6.0进行编程
●采用了Microsoft Access数据库对数据进行存储
以下介绍相关技术。
有关知网的技术
知网（英文名称为Hownet）是一个以汉语和英语的词语所代表的概念为描述对象，以揭示概念与概念之间以及概念所具有的属性之间的关系为基本内容的常识知识库[9]。下面分别简述知网的研究特点及知网系统的概貌。

首页上一页 1 2 3 4 下一页尾页 1/4/4