3.1获得评价的候选句子集 通过tofrom表,我们可以获得一个集合 {B1,B2,B3...},其中Bi对A进行了引用。我们相信,如果Bi对A进行了引用,那么Bi中可能会有一些句子对A进行了评价。一般有以下几种情况: Bi中的句子出现了A的论文名 Bi中的句子出现了A的作者名 在Bi的reference列表中,如果A出现在第k个位置,那么通常在文章中会利用"[k]"来对A进行引用。 对于(3)的情况,有时候并不只是对k进行引用,可能文章中的一句话代表的是好几篇文章的工作概括,因此会出现“[i,k,j]”这种类型的符号来对A进行引用,而且出现的概率很高。 如果Bi中的某句话对A进行了评论,那么通常它的前一句话和后一句话也会出现评价的信息 通过上面的5点,我们就可以获得了Bi中对A进行评价的句子,从而获得了一个候选句子集,里面的每一句话都不同程度的对A进行了评价。 图表 2
如图表 2所示流程,具体实现的时候,先要将Bi按句子进行划分为一个句子序列{Bis1,Bis2,Bis3.....},然后遍历这个句子序列,对于每一个句子,按照上面的前四条规则进行评判,如果满足其中任意一条,则这个句子是候选句子集合中的一个,并将其前后两个句子也合到一起,添加的候选句子集合中。 最终,得到对A进行评论的候选句子集{e1,e2,e3...},这里面可能会有一些评价来自同一篇论文。 3.2获得评论段落 获得了候选句子集之后,我们需要对其进行适当的排序,从中选出较好的几个句子,最终显示在页面上。由于不同的人,对这篇论文的评价可能也不太一样,因此,就不能简单的按照这些评价句子与原文的相似度来进行打分排序了,因为这样会造成和原文观点相近的评分较高,不是我们希望获得的结果。实际上,有时候越是和原文的观点不同,反而可能越重要,它可能是对这篇文章的批判,也有可能是原文的作者在写paper时没有发现的一些问题,这对我们寻找后续工作时可能会非常重要。 我们在提取数据的同时,会获得每一篇文章的citation信息,代表这篇文章被引用的次数,一般,一个较好的文章,被引用的次数也应当比较多,因此,对于每一个评价,根据它所在文章的被引用次数进行排序,可以获得较为专业,也较为合理的结果。 同时,需要注意的是,如果一个篇论文的被引用次数很高,而且它又有两段评论原文的句子时,那么这两段会一起出现在最终的结果里,在这里我们就需要对结果进行调整,保证在权重相同的情况下,尽可能选择尽量不同的文章的评论。
第4章 建立模型并生成基于影响的概括 通过获得了对源论文的评论集合,下面就可以与源论文建立模型来获得基于影响的概括。所谓基于影响的概括,简单来说,就是某句话与评论之间的关系越紧密,那么这句话的影响力就越大。最终将影响力最大的几个句子合在一起,就形成了基于影响的概括。 4.1建模之前我们所有的数据 在建模之前,我们先来看看我们已经获得了哪些数据: (1)所有论文集合D,以及D里所出现的所有单词,构成一个单词表V,并且可以统计出每个单词w出现的次数C(w,D) (2)对于一篇论文d,将其划分为多个句子{s1, s2, s3……} (3)已经获得了这篇论文进行评论的所有句子{e1, e2, e3……},把他们的集合成为C(Citation Context)。 下面,我们就可以参照KL-divergence算法,对d中的句子s进行打分。这里的打分,主要是基于词频以及相似度来做的。
4.2建模算法 首先,为任何一个句子打分的公式Score(s)如下:
从信息理论的观点,其中即为KL-divergence,可以被解释为通过句子s来表示基于影响的段落,需要从文章中删除的信息量。显然,其值越小,Score则越大,它也越能代表文章以及其他文章对它的评价的意思(因为它只要删除较少的信息) 可以看出,公式中最重要的是求出和。 首页 上一页 1 2 3 4 5 6 下一页 尾页 3/6/6 相关论文
首页 上一页 1 2 3 4 5 6 下一页 尾页 3/6/6