科研沙龙活动记录（四） – 北京大学深圳研究生院《深圳市内容中心网络与区块链重点实验室(ICNLab)》

时间：2012年12月12日
地点：A118会议室
主讲人：樊其锋、杨飞宇
主持人：邹凡云
参与人员：李大刚老师、黄连恩老师、实验室全体同学
活动内容：
第一位主讲人是11级樊其锋。在这次报告中，他介绍了自己投的一篇论文。主题是一种模板检测的算法。它包含了4个步骤：构造SDOM树，找出意义结点，精炼SDOM树，匹配并生成意义信息。讲的内容有些难度，在问答环节，大家提问很积极，樊其锋对于大家理解不清楚的地方，一一解答。最后，恩哥对樊其锋同学提出了更高的期望。
“好问题奖”确定为杨飞宇、严春伟、夏睿。
Q&A摘录：
（杨飞宇）问：请问樊师兄，你对比所用的产生数据的程序是怎么来的？发论文所用的对比程序可以是自己写的吗？
答：可以，因为要不到源程序，这个时候可以自己写，但是最好能要到源程序，否则最好做和别人的相同实验，若还不行，就自己写。
（严春伟）问：SDOM算法合并模版的时候，如果有这样的网页<div><div><p>，其中前两个并不是模版，而在SDOM树种，前两个是模版，那么当这几个标签合并到树中时，是否会被误认为是模版？
答：即使是匹配的标签下面，也会有模版和非模版的划分，在识别模版的时候，会精确匹配到每一个标签，判断每一个标签是否为模版。即使是在信息熵较小的标签下面，也允许存在非模版的节点。
（夏睿）问1：基于网页的内容提取和基于网站的内容提取有什么区别？
答1：基于网站的有一定的针对性，它是基于某个网站所做的结构树来进行信息的提取。基于网页的没有针对性，基于知识经验所产生的统计规律进行信息提取。
问2：在那种树的结构中，所谓的信息和非信息节点具体如何在树的结构中根据网页的层次内容被构造？
答2：比如带有许多广告超链接的一个<p>的内容，假设这个<p>属于一个<div>，则在那个<div>对应的节点中只体现这个<div>所对应的内容信息。而<p>中的内容信息是对应在自己的节点中的和<div>对应的节点内容无关，只是它的子节点。

第二位主讲人是12级杨飞宇。主题是针对现实中网页展示信息有错误的现象，根据网页蕴含信息的特点，通过构建图的方式对其进行描述，然后建立求解最优化模型，给每个信息示例一个合理的评分。杨飞宇同学思路清晰，对同学们提出的问题应答自如。李大刚老师和黄连恩老师对其报告的主题和细节也做了讨论和建议。黄老师向大家提出希望，认为做研究需要结合社会科学、要做对社会科学有价值的研究，值得大家思考。
“好问题奖”确定为严春伟、陈艺勇、李湛。
Q&A摘录：
（严春伟）问：初始时是选择一些种子节点，通过这些种子节点去判断更广阔图内的节点的正确率。种子节点里面分为权威和一般节点，那么如果权威节点有错误的话，系统是否有自愈的机制，能够通过更广阔的图中普通节点的正确性来排除错误权威节点的影响？
答：之前的一个公式，添加一个参数，把损失函数修改一下就可以。
（陈艺勇）问：这个半监督学习输入带标签的数据集为100个，预测20000多个数据的标签正确率达到90%以上，那么将数据减少一点比如10个那么其预测正确率能达到什么程度？
答：（指一个图）10个实验结果也是70%以上，具有较好的效果。
（李湛）问：这个返回的结果的评判是真假直接评判么？
答：不是，是返回权值。
追问：这个返回的结果只是平定了正确率，有没有对loss评判进行分析？
答：这个论文没有评判，对返回结果的错误没有错误估计。

最后是所有听众根据两位主讲人的整个报告的逻辑、内容充实性、回答问题的准确度等方面进行投票。最终投票结果是樊其锋6票，杨飞宇9票。杨飞宇赢得优胜奖，樊其锋获得鼓励奖。

附：
获奖名单：
优胜奖：杨飞宇
鼓励奖：樊其锋
好问题奖：杨飞宇、严春伟、夏睿；
严春伟、陈艺勇、李湛。
PPT、活动录像存放地址：
ftp://www.icnlab.cn/BigData/科研沙龙/第四次 20121212

发表评论