论文格式
电气工程 会计论文 金融论文 国际贸易 财务管理 人力资源 轻化工程 德语论文 工程管理 文化产业管理 信息计算科学 电气自动化 历史论文
机械设计 电子通信 英语论文 物流论文 电子商务 法律论文 工商管理 旅游管理 市场营销 电视制片管理 材料科学工程 汉语言文学 免费获取
制药工程 生物工程 包装工程 模具设计 测控专业 工业工程 教育管理 行政管理 应用物理 电子信息工程 服装设计工程 教育技术学 论文降重
通信工程 电子机电 印刷工程 土木工程 交通工程 食品科学 艺术设计 新闻专业 信息管理 给水排水工程 化学工程工艺 推广赚积分 付款方式
  • 首页 |
  • 毕业论文 |
  • 论文格式 |
  • 个人简历 |
  • 工作总结 |
  • 入党申请书 |
  • 求职信 |
  • 入团申请书 |
  • 工作计划 |
  • 免费论文 |
  • 现成论文 |
  • 论文同学网 |
搜索 高级搜索

当前位置:论文格式网 -> 免费论文 -> 其他论文

基于PARADISE平台的论文检索系统(四)

本论文在其他论文栏目,由论文格式网整理,转载请注明来源www.lwgsw.com,更多论文,请点论文格式范文查看
 
 
 对于公式(1),其中,表示一个单词w在句子s中出现的次数,表示单词w出现在所有论文空间中出现的概率,D为我们的整个论文空间。而为平滑参数。我们假设为|s|的n倍,则(1)式可以看成是
 
 
可见,n越大,表示w与整个论文空间的关系越大,而与这个句子的关系则较少。等于|s|时,表示二者一样,各占1/2。我在这里将n设置为了1。
 对于公式(2),其中表示一个单词w在当前要求的这篇论文中出现的次数,而表示单词w在我们为这篇论文求出的评价句子的集合C中出现的概率。为平滑参数。我们仍然假设为|s|的n倍,则(2)式可以看成
 

可见,n越大时,表示这个单词w与C的关系越大,而n小于1时,则与论文本身关系较大。可以看出,极端的情况,当n为0时,则w只与原论文有关系了,与我们获得的那些评价都没有关系了,因此获得的句子实际上对其他论文也没有什么影响了。因此,对于本实验,应当将n设置的越大越好。
4.3算法的实现
 具体实现算法时,会出现一些问题:我们假设一篇论文可以划分成1000个句子,每个句子有20个不同单词,我们总共有2000篇论文,那就有4亿个单词。那么,对于每一个句子s,我们在进行上面的算法时,需要进行如下一步
 
 
 这就需要对这4亿个单词进行遍历一遍,并且分别计算括号中的那一步。而每篇论文有1000个句子,就相当于要计算4000亿次,这个计算量对我们来说太庞大了,因此,我在这里选取了一个简便一点的方法,就是在上面的一步时,并不是对整个单词空间进行计算,而只是对论文d和评论集合C中出现的所有单词进行遍历计算打分。
 可以看出,对于一个既不在d中又不在C中的单词, = 0.对结果也没有影响。因此,上面的公式只是理论的公式,具体应用时,只需要对d和C中出现的单词进行计算即可,这就节省了大量的计算量。整个流程如图表 3,需要用到图表 2中的前三步算法获得的评论列表。这里之所以不用图表 2的最终结果,是因为我们需要更多的信息,信息越多,获得的概括越具有影响力。
图表
4.4获得基于影响的概括
 通过上面的模型,可以对A中的每个句子进行打分,然后根据所得分数进行从大到小排序。这里因为每篇论文只有1000左右的句子,数量级并不是很大,就自己写了一个简单的冒泡排序算法来排序。之后,选择其中得分最高的k个句子,组合在一起,就获得了原文基于影响的概括了。从整个建模的过程中也可以看出,所谓基于影响,就是通过那些对A进行评价的句子集C,分别获得Si与这些句子的相似程度,与其相似程度最高的,证明这个句子被其他作者提及的最多,影响最大。而这个概括与摘要的区别就是,影响较大的句子,可能原来的作者并没有想到,因此在摘要中并没有提及(正所谓无心插柳柳成荫);而摘要中提及的部分,影响可能反而没有那么大。
 
图表 3


第5章 搭建搜索引擎 
 本章内容主要介绍如何利用PARADISE搜索引擎平台来搭建我们的论文检索系统。通过这段内容,我们可以了解到PARADISE使用的基本过程,最终我们会发现,如果想搭建其他方向的搜索引擎,使用PARADISE也是非常方便的。
5.1 PARADISE结构简介
 PARADISE系统,全称是Platform for Applying, Researching And Developing Intelligent Search Engine, 是网络实验室搜索引擎组耗时一年多在一个国家863项目支持下开发的,其目的是建立一个搜索引擎平台,将搜索引擎的各个部分模块化,使得这个搜索引擎不只针对专一的某一个领域,而是可以针对各个领域。其功能有点类似于Lucene系统,与其不同的是PARADISE是用C++编写的。PARADISE有以下几大的模块,见表格 3。
表格 3
analysis index search front_evidence
(1)analysis是预处理模块,用于对网页进行去噪、消重以及编码转换等处理,如果是针对paper的pdf转换后的text文件建立索引,这一步骤就可以省略了。
(2)index是索引模块,用于将需要检索的部分建立倒排索引。具体如何使用5.2会提到。
(3)search是搜索模块,将index建成之后,就可以利用index数据开启搜索服务,对于每一个词,去倒排索引里面查找包含它的文档id号(网页中为url),从而完成检索。
(4)front_evidence是前台模块,完成一个类似于天网搜索引擎的前台界面。除了显示结果之外,还进行摘要处理。这个地方需要注意的就是与index部分有一定的结合,会在后面提到。

 除了以上4个大的模块之外,PARADISE还提供了很多可供选择以及继承修改的小模块。
 例如,在search的语言模型这个部分,可以选择需要的模型,也可以自己重写一些语言模型。压缩的时候,可以选择vint、pfordelta等等各种压缩算法PARADISE系统接口设计得非常好,当需要对上面任何一个模块进行修改时,不需要修改源代码,只需要自己重写一些继承的类就可以了。 

5.2修改索引部分
 对于本次的文献检索部分,只需要继承一个索引部分的类就可以了,具体代码如下(这里只贴出最关键的两端代码,中间还省略了一些代码),其中黄色背景的是需要我们修改的部分。
void main(){
 Analyzer* analyzer = new NaiveAnalyzer();
 compressorFactory = new PForDeltaCompressorFactory(); 
 IndexWriter * writer = new IndexWriter(fsdir, analyzer, compressorFactory);
     writer->setMergeThreshold(mergesize);
     PDFParser parser;
     if (begin != 0) {
         while (begin > 0) {
             parser.hasNext();
             begin--;}}
     int doc_id = 1;
     Timer t;
     while (parser.hasNext()) {
         shared_ptr<paradise::PDFContent> pContent = parser.getContent();
         addDocument(pContent, writer, doc_id);
         if (num >= 0 && doc_id >= num) {
             break;}}
}
 在上面的这段代码中,可以看出,首先建立了一个分析模块,然后选择压缩方式为pfordata,然后建立一个IndexWriter,这个是建立索引的类。而我们需要做的事情,就是:
重写一个Parser类,这里的名称为PDFParser,这个parser需要有hasNext,getContent这两个函数即可。
重写一个Content类,里面存有所需要建立索引的document的内容,由上面的getContent类返回。
重写addDocument函数,如下,其中关键部分用黄色背景标注。
int addDocument(shared_ptr<paradise::PDFContent> pContent,
          IndexWriter* pWriter, int & doc_id) {
          paradise::index::document::Document document;

首页 上一页 1 2 3 4 5 6 下一页 尾页 4/6/6


相关论文
上一篇:试论嘉兴市的电子化政府建设 下一篇:永不停歇的永远――谈铁凝的创作..
Tags:基于 PARADISE 平台 论文 检索 系统 【收藏】 【返回顶部】
人力资源论文
金融论文
会计论文
财务论文
法律论文
物流论文
工商管理论文
其他论文
保险学免费论文
财政学免费论文
工程管理免费论文
经济学免费论文
市场营销免费论文
投资学免费论文
信息管理免费论文
行政管理免费论文
财务会计论文格式
数学教育论文格式
数学与应用数学论文
物流论文格式范文
财务管理论文格式
营销论文格式范文
人力资源论文格式
电子商务毕业论文
法律专业毕业论文
工商管理毕业论文
汉语言文学论文
计算机毕业论文
教育管理毕业论文
现代教育技术论文
小学教育毕业论文
心理学毕业论文
学前教育毕业论文
中文系文学论文
最新文章
热门文章
计算机论文
推荐文章

本站部分文章来自网络,如发现侵犯了您的权益,请联系指出,本站及时确认删除 E-mail:349991040@qq.com

论文格式网(www.lwgsw.com--论文格式网拼音首字母组合)提供其他论文毕业论文格式,论文格式范文,毕业论文范文

Copyright@ 2010-2018 LWGSW.com 论文格式网 版权所有