2012年9月7日, 深圳市云计算关键技术与应用重点实验室(SPCCTA) 10级裴雨龙同学在马来西亚古晋举行的2012年亚太人工智能会议(12th Pacific Rim International Conference on Artificial Intelligence)上发表的题目为《Generic Multi-Document Summarization Using Topic-Oriented Information》长论文和题目为《Automatic Multi-document Summarization Based on New Sentence Similarity Measures》的短论文并应邀做主题报告。
- Generic Multi-Document Summarization Using Topic-Oriented Information
- 作者:Yulong PeiWenpeng YinLian’en Huang
- 文章链接:https://link.springer.com/chapter/10.1007/978-3-642-32695-0_39
- Automatic Multi-document Summarization Based on New Sentence Similarity Measures
- 作者:Wenpeng YinYulong PeiLian’en Huang
- 文章链接:https://link.springer.com/chapter/10.1007/978-3-642-32695-0_81
PRICAI’12目前是亚太人工智能领域的国际知名会议,会议组织者会主要来至国外著名的高校和研究机构,会议每两年召开一次。随着人工智能相关研究的深入和其应用领域的逐渐发展,该会议已经连续举办了12届研讨会,本届会议的论文录取率不到25%, 竞争相当激烈。
本篇论文中,作者们在基于PageRank模型的LexRank模型的基础上进行了研究扩展,创新性地提出一种面向话题的PageRank模型,在传统的LexRank基础上加入了话题信息,从话题层面对文本进行了挖掘。通过在DUC标准数据集上的实验,证明了该模型在摘要生成中的有效性,其实验结果在ROUGE-1,GOUGE-2和ROUGE-SU4三个指标中较以往方法均有大幅度提高。通过PageRank模型和话题信息的结合,本模型能够有效的挖掘文本的深层次信息,从而抽取出更好的文摘。
本篇论文中,作者们在深入研究了文档中句子相似度的度量,在传统的VSM,LCS和Skip-VSM模型的基础上,通过LDA模型抽取除了句子在语义层面的相似度,并将文本层面的相似度与语义层面相似度有机结合,形成了新的句子相似度度量方法。在DUC数据集上的实验表明,加入了语义层面相似度的度量方法能够有效的提高多文档文摘的性能。
该论文作者为10级裴雨龙和尹文鹏同学,于2012年4月投稿,文章相关作者的全部署名北京大学深圳研究生院,指导老师为深圳市云计算关键技术与应用重点实验室(SPCCTA)、互联网信息工程研发中心黄连恩老师。