科研沙龙活动记录(七)

时间:2013年3月19日 地点:A118会议室 主讲人:邹凡云、于倩 主持人:邹凡云 参与人员:雷凯老师、黄连恩老师、实验室全体同学。 活动内容: 第一位主讲人是邹凡云。主要介绍了软件著作权的申请。结合实验室已成功申请的四个软件著作权,细致的谈论了软件著作权的申请意义、步骤和注意事项,使大家对软件著作权申请流程有一个完成的认识,以后进行软件著作权申请可以少走弯路。大家讨论非常热烈,最终“好问题奖”确定为李湛、王嘉炜、王思博。 Q&A摘录: (李湛)问:软件著作权保护时效是多久,软件如果更新版本,前一个版本申请的著作权还有用没? 答:会一直有效,如果更新版本的话对新的版本重新申请著作权。 (王嘉炜)问:已有相同的软件的情况下是否还能申请软件著作权呢? 答:可以,可以自己编写完全功能的软件。 (秦大洲)问:算法是申请软件著作权还是专利? 答:软件著作权是不可以的。需要是一个成型的软件。 (王思博)问:软件著作权需不需要看程序。 答:不用看,只粘贴前30页和后30页代码就可以了。 第二位主讲人是于倩。主要介绍了专利的申请。主要内容:1专利的申请流程;2专利说明书的写作及要点;3以实验室之前申请的几个实例做总结,介绍了被驳回的主要原因。雷凯老师和黄连恩老师对几位同学的提问,也都做了补充回答。最终“好问题奖”确定为张莹、仇长贺、邹凡云。 Q&A摘录: (张莹)问1:专利申请有何特别标准? 答:审核时对不合格有标准,其他没有。 问2:专利申请后,当别人使用后,是否要给钱? 答:需要在审查阶段规定。 (仇长贺)问:对于描述不清晰或者认为我们无法实现的专利,可以再申请吗? 答:可以在描述清晰之后申诉。 (邹凡云)问:和已有专利类似的技术产品,能不能申请其他分类号的专利? 答:这个是看技术产品的类似程度,分类号只是个概念。 此次科研沙龙主要是向同学们介绍软件著作权和专利申请的相关流程,经雷凯老师建议,两人全部是优胜奖。 附: 获奖名单: 优胜奖:邹凡云 优胜奖:于倩 好问题奖: 李湛、王嘉炜、王思博; 张莹、仇长贺、邹凡云。 PPT、活动录像存放地址: ftp://www.icnlab.cn/BigData...
Read More

科研沙龙活动记录(六)

时间:2013年3月12日 地点:A118会议室 主讲人:仇长贺、张志明 主持人:邹凡云 参与人员:雷凯老师、黄连恩老师、实验室全体同学。 活动内容: 这是本学期第一次科研沙龙,雷凯老师和黄连恩老师到场聆听指导,同学们听的认真,讨论的也非常积极。 第一位主讲人是仇长贺。主题是Intrusion as (Anti)social Communication:Characterization and Detection。这是KDD2012最佳学生论文,文中采用了新颖的方式检测网络中的恶意主机。利用社交网络文化中图的分析和割点的概念,来描述和检测入侵。讲完后,雷总对最近在研究NDN中DDoS方面的陈涛同学提了问题,思考这个方法是否适用于NDN。王嘉炜认为由于NDN中没有端到端主机的概念,所以答案是否定的。对于同学们来讲,听主讲人讲非自己研究方向的知识,不仅能拓宽视野,同样也有可能促进交叉研究思路。大家讨论非常热烈,最终“好问题奖”确定为廖文静、夏睿、秦大洲。 Q&A摘录: (廖文静)问:论文中采用的检测方法比原来方法好在哪里,最后是否有实验对比? 答:论文从社会网络的角度看待和分析入侵检测问题,实验只对比了传统的采用出度的方法,结果证明比这种方法效果好很多。 (夏睿)问1:社交群体圈的概念是怎么定义的? 答:按照连入某个目的主机的所有主机组成初始的一个群体,然后,通过删除割点,设置阈值的方式,进一步处理。 问2:对于本来是割点,删除割点以后,不是割点的点,怎么处理? 答:就当做不是可疑点。 (秦大洲)问:置信区间95%的范围是(..)到底是一个怎么样的情况? 答:是表示错误在(..)区间内的可信度能达到95%,是个不错的可被接收的情况。 第二位主讲人是张志明。主题是“支持向量机”。主要介绍了三种支持向量机:硬间隔—支持向量机、软间隔—支持向量机、非线性支持向量机。讨论了如何由原问题转化为对偶问题,原问题转化为对偶问题的手段是Lagrange函数,并介绍了核函数及其优点和工作机制。最后讨论了支持向量机的应用。最终“好问题奖”确定为张帆、夏睿、杨飞宇。 Q&A摘录: (张帆)问:如果训练集是几百万的文档数据,而特征是几十万的词,那利用对偶问题求解(与训练集规模有关)是否比直接求解原问题(与特征维数有关)更复杂了? 答:一般地,不需要如此多的文档进行训练,通过随机抽取一小部分文档训练即可;而特征维数则是不可控的,通常特征维数越高越利于分类,所以特征维度一般要比训练集规模大得多。 (夏睿)问1:关于原方程和对偶函数的复杂度的关系。 答:原函数是根据维度,对偶函数是根据数据样本的个数。 问2:RBF是否会出现分类属于一类的情况? 答:会的,因为很可能尝试不出好的核函数,最后变换到某个维度空间,在这个空间中,它们混杂在一起。 问3:SVM适合小样本吗? 答:几百的小样本可以尝试使用SVM来处理,比一般的算法效果要好。这可能是由于对偶函数的变换作用。 (杨飞宇)问:如何实现从低维映射到高维时能够保证实现非线性到线性的转化? 答:这个映射关系是隐式实现的,需要多次设计核函数进行不断地实验才能成功。 最后是所有听众对两位主讲人根据整个报告的逻辑、内容充实性、表述能力等进行投票。:最终投票结果是张志明11票,仇长贺8票。张志明赢得优胜奖,仇长贺赢得鼓励奖。   附: 获奖名单: 优胜奖:张志明 鼓励奖:仇长贺 好问题奖:廖文静、夏睿、秦大洲; 张帆、夏睿、杨飞宇。 PPT、活动录像存放地址: ftp://www.icnlab.cn/BigData...
Read More

科研沙龙活动记录(五)

时间:2013年1月9日晚7点 地点:A118会议室 主讲人:宁锐、唐汉红 主持人:邹凡云 参与人员:雷凯老师、实验室全体同学 活动内容:        第一位主讲人是10级宁锐。他主要结合个人开发经验,简单讲解了移动游戏的基本概念,以及移动端HTML5开发框架,总结了开发过程中需要注意的问题。雷总最后就移动设备的能耗问题与大家交流。因为移动终端的瓶颈就在于电池电量有限,所以设计程序时,这一点要考虑在内。  “好问题奖”确定为邹凡云、杨飞宇、夏睿。 Q&A摘录: (邹凡云)问:HTML5既然是跨平台的,那为什么还要用jQuery mobile,而不是jQuery,这样网页版和移动设备上不就还要写两个版本吗?这样只是在移动设备的不同操作系统上跨平台了。 答:对,网页版和移动设备上还是会有区别的。jQuery也不是不可以,只是用mobile会在比如动画等方面做的更好一些。 (杨飞宇)问:移动游戏的前景和其它应用相比,它的特点是什么 回答:下载互联网下载中。游戏下载占TOP1,但是和其它应用相比,游戏属于速食品,生存周期短 (夏睿)问1:关于移动开发有什么可以研究的地方? 答:因为移动开发有很多已经开发好的库,给移动开发人员提供了很多便利。另外,移动设备本身的局限性,决定了移动开发不需要桌面环开发的大工作量。所以,从单纯的工程开发角度来看,研究的东西不多。而移动开发需要研究的问题主要是如何如何提供在底层的合理高效的引擎和库,比如量子系统。(雷老师补充:比如如何实现更加省电的指令)。 问2:移动开发与桌面开发要考虑的着重点在哪里? 答:桌面开发所使用的资源很多,产品相对复杂,可以提供的功能也可以很多。但是移动开发可利用的资源较少,产品一般来说功能比较单一,相对简单。移动产品的特点是便捷迅速。而对用户来说,对某一款的应用的依赖性也低,这意味着,某一款应用很可能只被使用过一次就被卸载。所以,用户体验是一个很重要的方面。 第二位主讲人是10级唐汉红。在这次报告中,他介绍了自己投的一篇论文。主题是:keywords extraction via multi-relational network construction. 之前的基于图的关键字提取方法通常只考虑了单词中的一种关系,比如共现关系,而没有考虑到词之间存在着相互作用的多种关系。因此,唐汉红同学提出一种基于多关系网络构建的方法,同时考虑语义、共现、话题相似度三种关系。并利用MultiRank算法来评估单词的权重。 由于只有三位同学提问,“好问题奖”就是这三位同学:仇长贺、夏睿、秦大洲。 Q&A摘录: (仇长贺)问:PageRank的算法是针对有向图的,在论文中的无向图里是怎么实现的? 答:论文有涉及到这个问题的讨论,可以指定一个加方向的机制,比如说在一个shingle里从前边的词指向后边,但是所有的机制的效果都是差不多的,所以这个可以自己制定一个合适的规则来加方向。 (夏睿)问:关于主题词的选取算法,判断它的好坏的标准是什么? 答:人工判断。即请专家来审阅文本,由他来给出权威的主题词提取结果,使用这个结果作为判断正确与否的标杆。 (秦大洲)问:这里面自己的东西有哪些? 答:每一个小的方法都是已经存在的,我就是把这些组合起来形成了一个新东西。          最后是所有听众根据两位主讲人的整个报告的逻辑、内容充实性、回答问题的准确度等方面进行投票。最终投票结果是宁锐9票,唐汉红8票。宁锐赢得优胜奖,唐汉红获得鼓励奖。   附: 获奖名单: 优胜奖:宁锐 鼓励奖:唐汉红 好问题奖:邹凡云、杨飞宇、夏睿;               仇长贺、夏睿、秦大洲。 PPT、活动录像存放地址: ftp://www.icnlab.cn/BigData/科研沙龙/第五次 20130109...
Read More

[Reprint] Content Is King: Can Researchers Design an Information-Centric Internet?

Changing the Internet's focus from data location to the nature of the information itself should improve network efficiency and security By Larry Greenemeier   In 2009 singer Susan Boyle's extremely popular YouTube video of the Les Miserables song "I Dreamed a Dream" racked up 140 million hits in just four days, the equivalent of a digital tsunami that blasted the Internet with gale-force winds. Given that the Internet was created more than four decades ago primarily as a communications network, few content providers other than Google could have successfully managed the storm of requests coming in for access to that video without crashing. The Internet was designed for "computers to make phone calls to other computers, and that's a really inefficient way of distributing content," Van Jacobson, a former research fellow at Palo Alto Research Center (PARC), said in a 2011 video interview on the company’s Web site. YouTube successfully handled the inundation of requests for Boyle's video "because they're a big, distributed content...
Read More

科研沙龙活动记录(四)

时间:2012年12月12日 地点:A118会议室 主讲人:樊其锋、杨飞宇 主持人:邹凡云 参与人员:李大刚老师、黄连恩老师、实验室全体同学 活动内容: 第一位主讲人是11级樊其锋。在这次报告中,他介绍了自己投的一篇论文。主题是一种模板检测的算法。它包含了4个步骤:构造SDOM树,找出意义结点,精炼SDOM树,匹配并生成意义信息。讲的内容有些难度,在问答环节,大家提问很积极,樊其锋对于大家理解不清楚的地方,一一解答。最后,恩哥对樊其锋同学提出了更高的期望。 “好问题奖”确定为杨飞宇、严春伟、夏睿。 Q&A摘录: (杨飞宇)问:请问樊师兄,你对比所用的产生数据的程序是怎么来的?发论文所用的对比程序可以是自己写的吗? 答:可以,因为要不到源程序,这个时候可以自己写,但是最好能要到源程序,否则最好做和别人的相同实验,若还不行,就自己写。 (严春伟)问:SDOM算法合并模版的时候,如果有这样的网页<div><div><p>,其中前两个并不是模版,而在SDOM树种,前两个是模版,那么当这几个标签合并到树中时,是否会被误认为是模版? 答:即使是匹配的标签下面,也会有模版和非模版的划分,在识别模版的时候,会精确匹配到每一个标签,判断每一个标签是否为模版。 即使是在信息熵较小的标签下面,也允许存在非模版的节点。 (夏睿)问1:基于网页的内容提取和基于网站的内容提取有什么区别? 答1:基于网站的有一定的针对性,它是基于某个网站所做的结构树来进行信息的提取。基于网页的没有针对性,基于知识经验所产生的统计规律进行信息提取。 问2:在那种树的结构中,所谓的信息和非信息节点具体如何在树的结构中根据网页的层次内容被构造? 答2:比如带有许多广告超链接的一个<p>的内容,假设这个<p>属于一个<div>,则在那个<div>对应的节点中只体现这个<div>所对应的内容信息。而<p>中的内容信息是对应在自己的节点中的和<div>对应的节点内容无关,只是它的子节点。 第二位主讲人是12级杨飞宇。主题是针对现实中网页展示信息有错误的现象,根据网页蕴含信息的特点,通过构建图的方式对其进行描述,然后建立求解最优化模型,给每个信息示例一个合理的评分。杨飞宇同学思路清晰,对同学们提出的问题应答自如。李大刚老师和黄连恩老师对其报告的主题和细节也做了讨论和建议。黄老师向大家提出希望,认为做研究需要结合社会科学、要做对社会科学有价值的研究,值得大家思考。 “好问题奖”确定为严春伟、陈艺勇、李湛。 Q&A摘录: (严春伟)问:初始时是选择一些种子节点,通过这些种子节点去判断更广阔图内的节点的正确率。 种子节点里面分为权威和一般节点,那么如果权威节点有错误的话,系统是否有自愈的机制,能够通过更广阔的图中普通节点的正确性来排除错误权威节点的影响? 答:之前的一个公式,添加一个参数,把损失函数修改一下就可以。 (陈艺勇)问:这个半监督学习输入带标签的数据集为100个,预测20000多个数据的标签正确率达到90%以上,那么将数据减少一点比如10个那么其预测正确率能达到什么程度? 答:(指一个图)10个实验结果也是70%以上,具有较好的效果。 (李湛)问:这个返回的结果的评判是真假直接评判么? 答:不是,是返回权值。 追问:这个返回的结果只是平定了正确率,有没有对loss评判进行分析? 答:这个论文没有评判,对返回结果的错误没有错误估计。 最后是所有听众根据两位主讲人的整个报告的逻辑、内容充实性、回答问题的准确度等方面进行投票。最终投票结果是樊其锋6票,杨飞宇9票。杨飞宇赢得优胜奖,樊其锋获得鼓励奖。 附: 获奖名单: 优胜奖:杨飞宇 鼓励奖:樊其锋 好问题奖:杨飞宇、严春伟、夏睿; 严春伟、陈艺勇、李湛。 PPT、活动录像存放地址: ftp://www.icnlab.cn/BigData/科研沙龙/第四次 20121212...
Read More

科研沙龙活动记录(三)

时间:2012年11月14日 地点:A118会议室 主讲人:张凯、尹文鹏 主持人:邹凡云 参与人员:黄连恩老师、实验室全体同学 活动内容:        第一位主讲人是11级张凯。主题:图计算的新选择。内容:Web2.0以来,越来越多的信息都以图结构的形式联系起来。同时图的规模也越来越大,传统的图算法的运算方式出现了难以适应的情况。Google公司开发了Pregel系统,通过vertex-centric的计算模型使得人们可以高效的进行分布式图运算。GraphChi则通过采用vertex-centric的计算模型加上他们提出的独特的PSW方法使得在一台普通PC上进行大规模图运算成为可能。这的确是一项非常厉害的工作。同学们积极提问互动,尤其是宋学辉同学针对细节问题与张凯进行激烈的讨论。最终“好问题奖”确定为12级的李湛、宋学辉、杨飞宇。 Q&A摘录: (宋学辉)问:对于一个PPT中举的一个例子,我觉得不是求图中最大的权值,而是对于每一个点求能到达该点,所有点的最大权值。 答:当图为强联通图时,问题是等价的(沙龙后讨论的)。 (李湛)问:投票行为是否可以重复? 答:每一次迭代所有投票,每次迭代步骤结束都要统计所有投票信息再进行程序是否结束的判断。 (杨飞宇)问:当迭代结束时该如何判别最大值,会不会存在无法搜索到最大值的情况? 答:不需要对所有的节点遍历,谷歌对此情况进行了优化处理,只要被使用的图算法能得到结果 那么就能得到最大值。   第二位主讲人是10级尹文鹏。主题是“论文的准备、写作与发表”。他从预备知识、论文写作、提交评审修改三个大方面展开演讲。预备知识中主要讲如何找论文、找研究点、找目标会议。其中,找会议的两个有用的网址为:http://www.wikicfp.com/cfp/home,http://www.ourglocal.com/ 论文写作部分,从Abstract一直到实验、结论部分,讲每一块该写什么、不能犯什么错误,并辅以示例说明。在提交评审修改方面,讲了投稿的一些注意事项、小技巧。总之,尹文鹏讲的非常实在且实用。他的演讲使师弟师妹们非常受益,他的报告PPT可谓页页值千金。恩哥对报告作了补充,提醒同学们不能为了发论文而发论文,要注重思维的培养、能力的提高。 Q&A摘录: (廖文静)研一研二两年的学习经验和关键时间段该做什么? 主要是研一花大量时间阅读论文,多吸取思想,找到研究点和自己的想法后理清思路后开始写论文。 (于倩)问:对于初读论文在量和质上的衡量及时间如何掌控? 答:读较为能理解的论文,先读论文的摘要和结论再决定是否继续做深入研究。 (虞龙煜)问:论文开始写作前需要准备到什么程度? 答:需要对你所写的东西有完整的认识,并且了解项目的研究难度和研究的重要性,以上两点达到一定要求后就可以开始写了。          最后是所有听众根据两位主讲人的整个报告的逻辑、内容充实性、回答问题的准确度等方面进行投票。最终投票结果是张凯13票,尹文鹏7票。张凯赢得优胜奖,尹文鹏获得鼓励奖。   附: 获奖名单: 优胜奖:张凯 鼓励奖:尹文鹏 好问题奖:李湛、宋学辉、杨飞宇;               廖文静、于倩、虞龙煜。 PPT、活动录像存放地址: ftp://www.icnlab.cn/BigData/科研沙龙/第三次 20121114...
Read More

科研沙龙活动记录(二)

时间:2012年10月31日 地点:A118会议室 主讲人:彭程、严春伟 主持人:邹凡云 参与人员:雷凯老师、实验室全体同学 活动内容:        第一位主讲人是11级彭程。主题是“Video over CCN”。首先介绍了CCN的概念、架构,对于发送interest以及data回来的整个过程,辅以幻灯片动画演示,非常清晰。列举CCN较IP的优势,结合CCN-HIPPO,着重介绍了视频直播点播应用方面的优劣对比。同学们对该主题兴趣浓厚,提的问题质量高,讨论热烈。雷凯老师对于大家讨论中未解决的问题一一做了回答。同学们对CCN的整体思想和路由、安全一些细节问题都有了清晰的轮廓。“好问题奖”确定为12级的宋学辉、王嘉炜、陈艺勇。 Q&A摘录: (宋学辉)问:CCN的局限性以及如何保证信息安全性。 答:对路由的功能要求增强,增加网络节点造价。使用私钥公钥体系进行加密和数字签名。 (王嘉炜)问:在不使用IP地址的情况下,NDN网络如何主动向一个客户发送数据,比如客户订阅了天气预报服务。 答:这个尚未研究,可以作为我们实验室的一个研究方向。 (陈艺勇)问:当一个数据源要同时向多个接受方发送同样的数据时,由于CCN可以将数据存放在路由器上,这样就不需要发送方跟每个接受方单独地发送一份数据,只需在需要分叉的路由口进行分叉发送就行,但是IP多播同样可以实现这样的功能,它们之间有何区别? 答:在IP组播,服务器需要管理IP组播的一些相关操作,比如建立一个多播组等,在CCN里一些相关的操作,比如什么数据在路由器里可以直接转发是在路由器上实现的,这样就解放了服务器,降低了服务器的负荷。        第二位主讲人是12级严春伟。主题是“机器翻译的一种统计方法”。统计机器学习,最初由IBM的一群工程师在91年提出。 核心思想是Noisy Channel Model,通过双语语料库的训练构建Language Model和Translation Model两个模型配合,生成最终结果。        严春伟同学虽然刚刚步入研究生阶段,但是演讲思路清晰,对于所讲内容理解透彻。“好问题奖”确定为12级的宋学辉、王嘉炜、陈艺勇。 Q&A摘录: (夏睿)问:关于个性化,或者翻译的特殊要求,比如科学翻译。是在数据库层次实现比较好,还是报告中讲的词语的排序这一层实现比较好,有人研究过吗?大概是一个什么情况 答:是有人之前开展过这个研究的。但是具体哪一个层次来实现更好,尚没有定论。 (张腊梅)问:在词典里都是词对词的翻译,在给的例子中如果是首先经过查字典,是怎么把“花园”对应到“the garden”的呢? 答:统计机器翻译模型不是基于词典的,是基于语句的。        最后是所有听众对两位主讲人根据整个报告的逻辑、内容充实性、回答问题的准确度等进行投票。最终投票结果是严春伟18票,彭程6票。严春伟赢得优胜奖,彭程赢得鼓励奖。   附: 获奖名单: 优胜奖:严春伟 鼓励奖:彭程 好问题奖:宋学辉、王嘉炜、陈艺勇;               张腊梅、陈涛、夏睿。 PPT、活动录像存放地址: ftp://www.icnlab.cn/BigData/科研沙龙/第二次 20121031...
Read More

科研沙龙活动记录(一)

时间:2012年10月10日 地点:A118会议室 主讲人:柳胜兵、沙文鹏 主持人:邹凡云 参与人员:黄连恩老师、李大刚老师、实验室全体同学。 活动内容:        主持人介绍本学期科研沙龙活动计划,尤其是强调本学期增加的主讲人鼓励机制以及听众互动的“好问题奖”活跃策略。        第一位主讲人是柳胜兵。主题是“LDA主题模型及其应用”,主要参考论文为:Latent Dirichlet Allocation。主要从背景、模型描述、参数估计和推导、应用几方面来阐述LDA。着重讲了模型以及公式推导,内容非常深,有很大难度。        在问答环节,张帆提出两个问题:1,数据量大怎么办?2,EM是不是容易陷入局部最优?针对这两个问题,柳胜兵给出的回答是:离线处理速度不是最重要的,关注速度的时候有在线的LDA算法。已经有人做了。EM确实容易陷入局部最优,初值的选择有时候比较重要,还有其他针对此问题的探索。黄连恩老师就演讲的整体形式提出了建议,希望在该活动中主讲人可以就问题的宏观层面来予以讲述,包括问题的背景产生、应用等,注重问题的整体解决思维;同时也提到了尹文鹏师兄关于LDA方面的研究以及论文成果,这是值得我们学习和作为榜样的。遗憾的是,只有张帆同学提问,所以只产生了一个“好问题奖”,颁给了张帆同学。        第二位主讲人是沙文鹏。主题是“Search Computing & LB Service”。他阅读了若干篇相关论文,清晰的讲述了如何将SeCo与LBS相结合来使LBS提供更好的服务,逻辑性强。同学们听的非常认真。在问答环节,大家积极的提问。12级的仇长贺、陈义勇、王嘉炜、杨飞宇以及11级的王思博、秦大洲分别针对多个域搜索的结果如何合并、合并权重如何分配、地理信息是不是也是作为一个域等诸多问题与沙文鹏进行了探讨。现场气氛十分活跃。 由于大家提的问题都非常好,沙文鹏对于三个“好问题奖”难以选择,最终在大家的谦让中,确定为12级的仇长贺、陈艺勇、王嘉炜。        最后是所有听众对两位主讲人根据整个报告的逻辑、内容充实性、表述能力等进行投票。投票方式为:事先发给每人两张牌,花色为一红一黑,红色和黑色分别代表两个主讲人。每人交上红色或者黑色牌,来支持自己更认可的主讲人。最终投票结果是沙文鹏15票,柳胜兵14票。沙文鹏赢得优胜奖,柳胜兵赢得鼓励奖。   附: 获奖名单: 优胜奖:沙文鹏 鼓励奖:柳胜兵 好问题奖:张帆;               仇长贺、陈艺勇、王嘉炜。 PPT、活动录像存放地址: ftp://www.icnlab.cn/BigData/科研沙龙/第一次 20121010...
Read More