论文格式
电气工程 会计论文 金融论文 国际贸易 财务管理 人力资源 轻化工程 德语论文 工程管理 文化产业管理 信息计算科学 电气自动化 历史论文
机械设计 电子通信 英语论文 物流论文 电子商务 法律论文 工商管理 旅游管理 市场营销 电视制片管理 材料科学工程 汉语言文学 免费获取
制药工程 生物工程 包装工程 模具设计 测控专业 工业工程 教育管理 行政管理 应用物理 电子信息工程 服装设计工程 教育技术学 论文降重
通信工程 电子机电 印刷工程 土木工程 交通工程 食品科学 艺术设计 新闻专业 信息管理 给水排水工程 化学工程工艺 推广赚积分 付款方式
  • 首页 |
  • 毕业论文 |
  • 论文格式 |
  • 个人简历 |
  • 工作总结 |
  • 入党申请书 |
  • 求职信 |
  • 入团申请书 |
  • 工作计划 |
  • 免费论文 |
  • 现成论文 |
  • 论文同学网 |
搜索 高级搜索

当前位置:论文格式网 -> 免费论文 -> 其他论文

基于PARADISE平台的论文检索系统(三)

本论文在其他论文栏目,由论文格式网整理,转载请注明来源www.lwgsw.com,更多论文,请点论文格式范文查看
 上面的工作完成之后,我们获得了所有的基本信息,其中,最重要的,获得了tofrom表,该表的key是一篇论文A的ID,value是引用A的所有论文ID的集合。下面我们就要结合前面获得的数据,包括论文的文本、元数据,来获得一篇论文的评论集。

3.1获得评价的候选句子集
 通过tofrom表,我们可以获得一个集合 {B1,B2,B3...},其中Bi对A进行了引用。我们相信,如果Bi对A进行了引用,那么Bi中可能会有一些句子对A进行了评价。一般有以下几种情况:
Bi中的句子出现了A的论文名
Bi中的句子出现了A的作者名
在Bi的reference列表中,如果A出现在第k个位置,那么通常在文章中会利用"[k]"来对A进行引用。
对于(3)的情况,有时候并不只是对k进行引用,可能文章中的一句话代表的是好几篇文章的工作概括,因此会出现“[i,k,j]”这种类型的符号来对A进行引用,而且出现的概率很高。
如果Bi中的某句话对A进行了评论,那么通常它的前一句话和后一句话也会出现评价的信息
 通过上面的5点,我们就可以获得了Bi中对A进行评价的句子,从而获得了一个候选句子集,里面的每一句话都不同程度的对A进行了评价。
图表 2

 如图表 2所示流程,具体实现的时候,先要将Bi按句子进行划分为一个句子序列{Bis1,Bis2,Bis3.....},然后遍历这个句子序列,对于每一个句子,按照上面的前四条规则进行评判,如果满足其中任意一条,则这个句子是候选句子集合中的一个,并将其前后两个句子也合到一起,添加的候选句子集合中。
    最终,得到对A进行评论的候选句子集{e1,e2,e3...},这里面可能会有一些评价来自同一篇论文。
3.2获得评论段落
 获得了候选句子集之后,我们需要对其进行适当的排序,从中选出较好的几个句子,最终显示在页面上。由于不同的人,对这篇论文的评价可能也不太一样,因此,就不能简单的按照这些评价句子与原文的相似度来进行打分排序了,因为这样会造成和原文观点相近的评分较高,不是我们希望获得的结果。实际上,有时候越是和原文的观点不同,反而可能越重要,它可能是对这篇文章的批判,也有可能是原文的作者在写paper时没有发现的一些问题,这对我们寻找后续工作时可能会非常重要。
    我们在提取数据的同时,会获得每一篇文章的citation信息,代表这篇文章被引用的次数,一般,一个较好的文章,被引用的次数也应当比较多,因此,对于每一个评价,根据它所在文章的被引用次数进行排序,可以获得较为专业,也较为合理的结果。
  同时,需要注意的是,如果一个篇论文的被引用次数很高,而且它又有两段评论原文的句子时,那么这两段会一起出现在最终的结果里,在这里我们就需要对结果进行调整,保证在权重相同的情况下,尽可能选择尽量不同的文章的评论。
 

第4章 建立模型并生成基于影响的概括
 通过获得了对源论文的评论集合,下面就可以与源论文建立模型来获得基于影响的概括。所谓基于影响的概括,简单来说,就是某句话与评论之间的关系越紧密,那么这句话的影响力就越大。最终将影响力最大的几个句子合在一起,就形成了基于影响的概括。
4.1建模之前我们所有的数据
 在建模之前,我们先来看看我们已经获得了哪些数据:
(1)所有论文集合D,以及D里所出现的所有单词,构成一个单词表V,并且可以统计出每个单词w出现的次数C(w,D)
(2)对于一篇论文d,将其划分为多个句子{s1, s2, s3……}
(3)已经获得了这篇论文进行评论的所有句子{e1, e2, e3……},把他们的集合成为C(Citation Context)。
 下面,我们就可以参照KL-divergence算法,对d中的句子s进行打分。这里的打分,主要是基于词频以及相似度来做的。

4.2建模算法
 首先,为任何一个句子打分的公式Score(s)如下:

 
 
 从信息理论的观点,其中即为KL-divergence,可以被解释为通过句子s来表示基于影响的段落,需要从文章中删除的信息量。显然,其值越小,Score则越大,它也越能代表文章以及其他文章对它的评价的意思(因为它只要删除较少的信息)
 可以看出,公式中最重要的是求出和。
 
 
 
 
 
 

首页 上一页 1 2 3 4 5 6 下一页 尾页 3/6/6


相关论文
上一篇:试论嘉兴市的电子化政府建设 下一篇:永不停歇的永远――谈铁凝的创作..
Tags:基于 PARADISE 平台 论文 检索 系统 【收藏】 【返回顶部】
人力资源论文
金融论文
会计论文
财务论文
法律论文
物流论文
工商管理论文
其他论文
保险学免费论文
财政学免费论文
工程管理免费论文
经济学免费论文
市场营销免费论文
投资学免费论文
信息管理免费论文
行政管理免费论文
财务会计论文格式
数学教育论文格式
数学与应用数学论文
物流论文格式范文
财务管理论文格式
营销论文格式范文
人力资源论文格式
电子商务毕业论文
法律专业毕业论文
工商管理毕业论文
汉语言文学论文
计算机毕业论文
教育管理毕业论文
现代教育技术论文
小学教育毕业论文
心理学毕业论文
学前教育毕业论文
中文系文学论文
最新文章
热门文章
计算机论文
推荐文章

本站部分文章来自网络,如发现侵犯了您的权益,请联系指出,本站及时确认删除 E-mail:349991040@qq.com

论文格式网(www.lwgsw.com--论文格式网拼音首字母组合)提供其他论文毕业论文格式,论文格式范文,毕业论文范文

Copyright@ 2010-2018 LWGSW.com 论文格式网 版权所有