基于PARADISE平台的论文检索系统(三)

本论文在其他论文栏目，由论文格式网整理,转载请注明来源www.lwgsw.com,更多论文,请点论文格式范文查看
上面的工作完成之后，我们获得了所有的基本信息，其中，最重要的，获得了tofrom表，该表的key是一篇论文A的ID，value是引用A的所有论文ID的集合。下面我们就要结合前面获得的数据，包括论文的文本、元数据，来获得一篇论文的评论集。

3.1获得评价的候选句子集
通过tofrom表，我们可以获得一个集合 {B1,B2,B3...}，其中Bi对A进行了引用。我们相信，如果Bi对A进行了引用，那么Bi中可能会有一些句子对A进行了评价。一般有以下几种情况：
Bi中的句子出现了A的论文名
Bi中的句子出现了A的作者名
在Bi的reference列表中，如果A出现在第k个位置，那么通常在文章中会利用"[k]"来对A进行引用。
对于(3)的情况，有时候并不只是对k进行引用，可能文章中的一句话代表的是好几篇文章的工作概括，因此会出现“[i,k,j]”这种类型的符号来对A进行引用，而且出现的概率很高。
如果Bi中的某句话对A进行了评论，那么通常它的前一句话和后一句话也会出现评价的信息
通过上面的5点，我们就可以获得了Bi中对A进行评价的句子，从而获得了一个候选句子集，里面的每一句话都不同程度的对A进行了评价。
图表 2

如图表 2所示流程，具体实现的时候，先要将Bi按句子进行划分为一个句子序列{Bis1,Bis2,Bis3.....}，然后遍历这个句子序列，对于每一个句子，按照上面的前四条规则进行评判，如果满足其中任意一条，则这个句子是候选句子集合中的一个，并将其前后两个句子也合到一起，添加的候选句子集合中。
    最终，得到对A进行评论的候选句子集{e1,e2,e3...}，这里面可能会有一些评价来自同一篇论文。
3.2获得评论段落
获得了候选句子集之后，我们需要对其进行适当的排序，从中选出较好的几个句子，最终显示在页面上。由于不同的人，对这篇论文的评价可能也不太一样，因此，就不能简单的按照这些评价句子与原文的相似度来进行打分排序了，因为这样会造成和原文观点相近的评分较高，不是我们希望获得的结果。实际上，有时候越是和原文的观点不同，反而可能越重要，它可能是对这篇文章的批判，也有可能是原文的作者在写paper时没有发现的一些问题，这对我们寻找后续工作时可能会非常重要。
    我们在提取数据的同时，会获得每一篇文章的citation信息，代表这篇文章被引用的次数，一般，一个较好的文章，被引用的次数也应当比较多，因此，对于每一个评价，根据它所在文章的被引用次数进行排序，可以获得较为专业，也较为合理的结果。
  同时，需要注意的是，如果一个篇论文的被引用次数很高，而且它又有两段评论原文的句子时，那么这两段会一起出现在最终的结果里，在这里我们就需要对结果进行调整，保证在权重相同的情况下，尽可能选择尽量不同的文章的评论。

第4章建立模型并生成基于影响的概括
通过获得了对源论文的评论集合，下面就可以与源论文建立模型来获得基于影响的概括。所谓基于影响的概括，简单来说，就是某句话与评论之间的关系越紧密，那么这句话的影响力就越大。最终将影响力最大的几个句子合在一起，就形成了基于影响的概括。
4.1建模之前我们所有的数据
在建模之前，我们先来看看我们已经获得了哪些数据：
(1)所有论文集合D，以及D里所出现的所有单词，构成一个单词表V，并且可以统计出每个单词w出现的次数C(w,D)
(2)对于一篇论文d，将其划分为多个句子{s1, s2, s3……}
(3)已经获得了这篇论文进行评论的所有句子{e1, e2, e3……},把他们的集合成为C（Citation Context）。
下面，我们就可以参照KL-divergence算法，对d中的句子s进行打分。这里的打分，主要是基于词频以及相似度来做的。

4.2建模算法
首先，为任何一个句子打分的公式Score(s)如下：

从信息理论的观点，其中即为KL-divergence，可以被解释为通过句子s来表示基于影响的段落，需要从文章中删除的信息量。显然，其值越小，Score则越大，它也越能代表文章以及其他文章对它的评价的意思（因为它只要删除较少的信息）
可以看出，公式中最重要的是求出和。

首页上一页 1 2 3 4 5 6 下一页尾页 3/6/6