鄂维南院士到访深研院并做“大数据发展中一些瓶颈问题”学术报告

新学期伊始,8月29日,中国科学院院士,北京大学、美国普林斯顿大学鄂维南教授,应邀对北京大学深圳研究生院进行交流访问。下午3点,鄂院士在北京大学深圳研究生院H栋214作了专题为“大数据发展中的一些瓶颈问题”的精彩学术讲座。深研院党委书记、副院长谭文长教授出席讲座并致词欢迎,相关老师和同学积极参加了本次讲座。讲座由实验室雷凯老师主持。 鄂维南院士从数据资源、数据处理方法、大数据技术、数据人才等四个方面探讨了大数据发展中一些瓶颈问题,分享了自己对数据收集与处理的研究成果和经验。鄂院士2009年开始就关注大数据价值。当前数据资源并不稀缺,数据的价值在交易过程中很难保值,从而导致在数据需求方和数据所有方之间存在沟通、使用以及隐私担心方面的关键问题;数据隐私在之前发表的一篇Science文章中已经被基本证明是个不可完全规避的问题;大数据处理技术中存在很多有挑战性的理论和技术问题,例如在社会征信、推荐技术、预测技术和处理模型上都有比较广泛的研究内容和应用前景。 鄂院士通过Google搜索技术和商业模式、天文学家开普勒三大定律、物理学家牛顿三大定律、信息领域视频识别处理、社交网络结构分析、现代基因生物计算等几个跨交叉学科的大数据研究和进展的具体案例,生动说明了大数据发展的前景,启发大家思考解决相应科学问题的理解和思维方式。 现场提问环节,吸引了在座的老师和同学们的浓厚兴趣。对于相关老师问及的大数据理论判别依据、深度学习技术的进展和应用、人工智能分析技术、大数据存储技术、大数据在医疗、金融方面的应用、数据科学的前景、以及大数据发展的战略目标等问题,鄂院士都一一耐心透彻地进行了精辟的回答和讲解。 作为北京大学元培学院的院长,鄂院士特别指出此行的主要目的,是来实地看望并了解深圳研究生院的师生和办学情况。介绍北京本部数据学科的建设情况,以及鼓励深圳研究生院在大数据方面的人才培养模式、培养目标上多做出一些创新并实质性的尝试。 鄂维南院士与深研院师生们热情交流,并在讲座之后与大家集体合影留念。会议圆满结束之后,谭文长书记陪同鄂院士参观了深圳校区并介绍了大学城办学的基本情况。感谢鄂院士的专程访问并期待他的下次到访。 鄂维南教授2011年当选中国科学院院士。1996年获得了美国青年科学家和工程师总统奖,1999年获得冯康科学计算奖。2003年获第五届国际工业与应用数学家大会科拉兹奖(Collatz Prize)。鄂院士的研究领域极其广泛,分布在数学、力学和理论物理的诸多方向,并均有重要的发现和贡献。他的研究把数学模型、分析和计算美妙地结合起来,并能对现实世界的重要现象提供新的见解。2014年11月7日,北京大学北京国际数学研究中心暨数学科学学院鄂维南院士研究小组在Science杂志上发表题为“Microscopic mechanism of equilibrium melting of a solid”的文章,报告了基于鄂维南和合作者所发展的稀有事件新型算法对于揭示金属固体熔化微观机理的研究。文章刊登在Science第346卷,北京大学是责任作者鄂维南院士的第一署名单位,研究得到国家自然科学基金委员会重大研究计划的支持。...
Read More

颠覆TCP/IP?– 雷凯老师编著《信息中心网络与命名数据网络》教材出版

历时两年的编撰工作,雷凯老师编著的专著教材《信息中心网络与命名数据网络》 (Information-Centric Networking (ICN) and Named-Data Networking (NDN))近日由北京大学出版社正式出版,该书被列入计算机网络高等学校教材,全书共300页,计32.5万字。ISBN号: 纵观通信网络演变的历史,总体上经过了两个重要的发展阶段:第一个阶段就是电话网络,电话是在1876年由著名的发明家亚历山大·格拉汉姆·贝尔(Alexander Graham Bell)先生发明。1892年他成功完成从纽约到芝加哥的第一次长途通话。第二个重要发展阶段是在20世纪60、70年代,主要标志就是以数字化的IP数据包交换为通信模式的互联互通网络的诞生和应用,也是当前互联网(Internet)构架基础工作模式。 互联网已成为支撑现代社会发展及技术进步的重要的基础设施之一。网络中的内容不断呈爆炸性增长,而且这种趋势不断在加速。如今互联网更在意以信息为中心的网络。但是传统的TCP/IP网络构架的通信模型却是基于位置模式,仍然沿用上世纪六十年代诞生时期的设计理念,主要目的是为了满足数据端到端传输的需求。以TCP/IP协议为核心技术的互联网面临着越来越严重的技术挑战,在网络的扩展性、安全性、可靠性、移动性和智能性等方面暴露了许多不适应性。最近几年,世界各国都在重点关注如何设计全新的未来互联网体系构架,信息中心网络成为主流研究方向之一。命名数据网络(NDN)项目经过不断的创新和发展,逐渐脱颖而出,成为目前最为看好建议方案。略为大胆地预计,如果NDN项目能进入实际实验网部署阶段,很有可能成为继云计算、大数据之后,成为一个信息技术革新的划时代爆发点:将触发整个互联网软件、硬件的整体升级换代,一批新的华为、BAT公司即将诞生。 本书是第一本以命名数据网络为重点的书籍。不仅综合描述了ICN网络的知识,也系统地阐述了NDN产生的背景、概念、设计思想、工作原理、实践实验和最新进展,并针对NDN的推广所面临的实际需求——相关技术普及和应用研发进行了详细讲解。 从2010年开始,雷凯老师课题组开始重点专注命名数据网络领域的研究。李晓明教授在序言中指出:“本书是目前国内少有的比较专注这一领域的著作。这个年轻的团队十多年来一直聚焦互联网内容分发这一关键需求进行学术和应用技术研究,取得了一些具有一定可见度的特色成果。我国作为互联网大国,在这个方面的科技进步和人才培养是非常具有战略意义的,为此推荐这本书给相关有意愿和志向努力进行开拓性研究的科技工作者、老师和同学们。也祝愿深圳团队继续潜心专研,作为一个新的起点,做出更加有意义的学术和科研成果。” 互联网中心从03年开始招收深圳研究生院第一届计算机专业硕士生,是深研院计算机专业起步与成长的“星星之火”,已经累计培养了9届共160多名网络信息工程领域的优秀博、硕士,先后给BAT等中国顶级互联网企业输送了超过50多名人才。近3年连续有毕业生直接赴美国Google, Facebook总部就业,形成了一定的品牌效应。这是实验室全体老师同学们多年共同努力获得的成绩。“谨以此书祝贺互联网中心(CIRE)成立十二周年,https://www.icnalb.cn。”...
Read More

2015年伦敦IEEE国际通信年会(ICC)上成功宣讲三篇论文

2015年6月8日-12日,2015年IEEE国际通信年会(IEEE International Communication Conference, ICC 2015 ) 在英国伦敦Excel展览馆举行,本届会议的主题是“智能城市与智能世界(Smart City and Smart World)”。会议得到全球顶尖的大企业赞助,包括高通和华为等,参会人数创纪录达到2600多人。互联网中心在大会上顺利进行了三篇发表论文的宣讲工作。 本次发表三篇论文工作主要由实验室12级王嘉炜、王慧钰和13级张炜阳同学完成。第一篇文章《An Entropy-based Probabilistic Forwarding Strategy in Named Data Networking》,主要贡献是在未来互联网构架NDN体系下设计并实现了一个基于信息熵的高效智能概率转发模型,文章通过将NDN转发模型理论上归纳成一个多属性决策(MADM)问题, 实现了智能NDN网络静态指标与动态反馈相结合的转发策略,与同期最好的BestRoute算法相比,体现了更好的灵敏性、适应性和可扩展性,并在网络吞吐率、完成时间、负载均衡、可控性等方面表现出了较大的改进;第二、三篇文章都是围绕新浪微博社交网络大数据研究,数据集来自实验室爬取的超过100亿(10 Billion)条的微博数据。《Profiling the Followers of the Most Influential and Verified Users on Sina Weibo》文章提出了时间间隔信息熵的评价指标,通过分析新浪大V用户的粉丝关注、评论和转发的行文特征,量化分析数据分布,总结评价指标,建立了一套完整的识别垃圾评论和垃圾粉丝的鉴别方法,算法的时间复杂度有效降低到了O(n)线性水平,并且可以达到95.2%的识别率;第三篇文章《Extracting Unknown Words from Sina Weibo via Data Clustering》针对网络上中文未知词(即新出现非字典中网络用语)的识别和提取难点问题,在通过聚类、相似性判断和TF-IDF分析等基本手段基础上,创新地提出了左、右子词的上下文熵和PMI改进公式,相比主流的基准方法在Recall(召回率)、Precision(准确率)、F-Score(F综合评分)三个评价指标上分别提高了22%、14%、19%。两位12级同学今年6月已经顺利完成毕业答辩,均被推荐为优秀硕士毕业论文,其中王嘉伟同学被推荐为北京市、北京大学优秀毕业生。 IEEE国际通信年会(ICC)与IEEE全球通信会议(Globecom)并列为IEEE Communication Society(成立与1952年)两大旗舰会议,会议在信科国际会议分类中属于A类国际会议。实验室2013年曾经在Globecom大会上发表并宣讲了一篇论文,今年一次连中三元,表明实验室同学在学术研究兴趣和水平上都有了长足的进步。 雷老师参加了会议,一并宣讲了三篇论文。...
Read More

2015-2016学年科研沙龙(二)

      2015年5月18日互联网实验室全体同学在A栋118举行了科研工作分享交流会,主要是通过12级师兄师姐三年来科研学习以及上一段时间找工作经历的分享,让师弟师妹们对科研和工作有新的认识了解。一直以来互联网实验室的毕业生找工作的情况是非常好的,所以希望能够一直保持着分享会的传统,让最宝贵的一手信息可以惠及实验室同学们。       交流会总体分为两个部分,经验分享和提问环节。首先由12级师兄师姐轮流分享科研学习以及找工作方面的心得经验。12级同学的工作方向主要分为两类,一是互联网公司,二是国企。       互联网类公司,陈艺勇、严春伟、王嘉炜、虞龙熠、黄康贤师兄们做了详细的介绍。总结起来,首先选公司,最好奔着一两个公司去,简历不要海投,因为每个公司面试可能有3-4面,如果投了很多公司,自己忙不过来;待选定目标公司后,可以多上网看看面经,面经的问题其实经常会重复考,不要以为考过就不考了;互联网公司面试和笔试题想有提高,可以去刷leetcode,一开始做的时候可能觉得很难,但是多做就发现其实题型就那么多,要有耐心,要会总结。       国企方面,于倩和王慧钰师姐做了非常详细的介绍。大致包括简历投递的时候,要会美化简历,可以多看看别人的写得好的简历,模仿一下。另外面试的时候不要太紧张,因为通常国企对技术的要求没有互联网类公司高,学生们好好准备下,是可以通过的。于倩师姐还总结了一些单位的特点,王慧钰师姐建议大家国企的话,因为招聘的时间晚,不妨多投几个,万一前面的没有通过,起码后面的单位还有希望。       本来第二个提问环节穿插在第一个分享环节中进行了,大家聊得十分开心。       通过此次分享会的举行,大家纷纷表示受益匪浅。研一研二的同学对自己的学习和找工作的目标又有了更深一步的了解,分享会一直是互联网实验室的优良传统,希望可以一直传承下去! ...
Read More

热烈欢迎王振林教授、丁晨教授到我院做学术讲座

      2015年5月6日,密西根理工大学计算机系的王振林教授和罗彻斯特大学计算机系的丁晨教授受互联网实验室雷凯老师的邀请,于当日15:30在A118会议室做了一场精彩的学术讲座。实验室所有学生以及微电子的部分老师前来参加此次讲座,雷凯老师对在场的几位老师进行了简要介绍,并对老师们的到来表示热烈的欢迎。       丁晨教授讲座的题目为《局部性理论及应用》(Modern Locality Theories and Applications),丁老师讲话幽默风趣,富有感染力,大家听得津津有味。期间介绍了缓存存在的意义、局部性理论、中级局部性理论、局部性定量等方面知识。       王振林教授讲座的题目为《内存虚拟化计算机中的开销优化》(Toward Eliminating Memory Virtualization Overhead),王老师介绍了计算机内存虚拟化以及开销方面的知识,接着对优化的必要性,还有优化之后性能的提升做了介绍,会上大家进行了激烈的讨论。       会议结束后,我院老师与王振林教授、丁晨教授合影,感谢他们此次的分享,希望以后可以有更多交流的机会。 ...
Read More

09级学生王中杰将赴University of California, Riverside攻读博士

      互联网实验室王中杰同学将赴University of California, Riverside攻读博士。       王中杰同学是互联网实验室09级的学生,毕业工作几年之后,决定读博。现已成功申请到UC Riverside,security方向的博士,预祝王中杰同学在UCR生活愉快,学业有成!       下附UCR的学校网址以及校内风景:http://www.ucr.edu/  ...
Read More

2015年4月11日互联网实验室河源两日游

      春回大地,草长莺飞。正是山花烂漫时节,正适合去到野外,来一场神清气爽的春游。2015年4月11日上午9点,我们怀着激动的心情登上了前往河源的大巴。外面还下着蒙蒙细雨,伴随着沿途绿意盎然的树木,好一副充满诗意的朦胧景象。       到达河源正赶上吃午饭的时候。根据导游姐姐小朱的介绍,河源的食物共有三大特点,一是咸,二是油,三是香。河源最出名的菜就是客家豆腐和东江盐鸡,都是用东江的水烧制而成的。据说这东江是河源的母亲河,水质优良,还是农夫山泉的水源地之一。这番话说的大家垂涎欲滴。这回我们可以土豪一次,品尝用农夫山泉制作出的美味食物了。食物果然非常美味,正好契合了它的三个特点,并且有一股清香味。我们还有幸品尝了东江水酿造的黄酒,这种独特的客家黄酒呈现淡淡的红色,清香扑鼻,醇馥幽郁,十分醉人。       下午我们满怀期待前往此行的第一景点——野趣沟。       野趣沟风景区位于广东省河源市大桂山旅游大道中段,距市区约10公里,有“自然空调”、“中华第二沟”美誉。这里有欢乐激情的野浴乐,雨中蹦迪,惊心刺激的水上速滑;有野炊乐和味美的竹筒饭;有欢情、变化多端、野趣无穷的(狐狸坳探险)木径野嬉步行区;其中有花谜、树谜、藤谜、药谜,和千年不解之谜的“天书石”和令人感觉最舒适的响水坪休闲区。       进入河源的第一印象就是这里漫山遍野的树木,真可谓是一个天然氧吧,我们大声唱着歌,聊着天,尽情地呼吸着这里洁净的空气。将平时的压力释放一空,带着一个轻松愉悦的心情继续我们的旅程。这里不仅有清幽的山和树木,更有清澈见底的湖水,当然最有趣的还是山上数目众多的游玩项目了。我们沿着山路一路探险,走梅花桩,爬高网,走独木桥,真是又惊险又刺激!       吃过晚饭后我们一行又前往东源县黄田镇叶园温泉度假村自由浸泡温泉,其热水占地面积约300平方米,有38处泉眼,水温常年保持在68摄氏度左右,日流量达2000多吨。共有大大小小60多个温泉池,功效各不相同,有玫瑰浴,艾草浴等,当然还可以一边泡温泉,一边欣赏精彩的表演,温泉让我们洗去了一天的疲惫,真是一种享受。       第二天上午我们来找到了美丽的风景区-镜花缘。该景区以古典神话名著之一的《镜花缘》为文化底蕴,通过将中国古典神话与自然环境巧妙的融合,向游人展现出 一个令人神往的世外桃源景象。我们沿着万绿湖边一路漫步,该岛绿水环抱,水色一日三变。穿越仙缘桥,漫步于岛屿之间,倍感山宁、地静、水柔。于一幽处独坐 或约友人闲情对弈,更心平神静,悠悠若仙。       下午在福源果场采摘枇杷后,满怀着愉快的心情,我们踏上了回家的旅途。       最后,互联网的所有同学感谢雷总对此次春游活动的支持。这次河源之行让我们在忙碌的学习生活中得到了放松,同时也加深了实验室同学之间的友谊。...
Read More

2015-2016学年科研沙龙(一)

科研沙龙活动记录(一) 时间:2015.04.09 地点:A栋118室 主讲人:13级候超俊 12级严春伟 主持人:袁梦 参与人员:雷凯老师及13、14级实验室同学 活动内容:       清明小长假刚刚结束,大家好像还没有完全步入学习正轨,我们本学期第一次科研沙龙今晚成功举办,希望可以让大家在讨论中共同进步,学习别人分享的内容,从中汲取营养。       第一位主讲人是13级的候超俊同学,他主要的研究内容在NDN的拥塞控制方面。候超俊今天的题目为《The congestion control in network》,他首先简单地介绍了TCP协议,通过TCP中的有限状态机之间的状态变化来着重的介绍TCP中的七种定时器和TCP中连接的建立和销毁。接着提出目前TCP下的拥塞产生的问题,以及如何做好相应的拥塞控制。关于TCP中的拥塞控制,根据慢启动,拥塞避免,快速重传和快速恢复四个阶段分别介绍。最后他介绍了TCP下常用的拥塞控制算法,以及在NDN下做拥塞控制所带来的机遇和挑战。       候超俊同学生活中幽默风趣,大家可以结识一下这位逗A~哈哈~候超俊分享完毕之后,陶世博和马一宁同学提出了问题。       首先陶世博同学提出TCP建立连接的时候为什么一定要是三次握手,为什么两次不行?候超俊进行了回答:三次握手的最主要目的是保证连接是双工的,TCP连接中上行路线和下行路线可能是不同的,第一次和第二次握手是为了保证服务端能够接收到客户端的消息,并能正确应答;第二次和第三次握手是为了保证客户端能够接收到服务端的消息,并能正确应答;两次握手无法保证连接是双重的。       马一宁就图中的一个定义的问题提出了疑问:图中的knee和cliff是什么值,怎么定义的?对此候超俊进行了解答:图中的这两个值,是通过实验得到的,cliff是悬崖的意思,也可以看到在cliff那个地方之后明显降落了。       接下来是12级的严春伟师兄的讲授,他的主讲题目为《word2vec 原理和应用》。简单介绍了神经网络的相关原理。 之后着重介绍了从统计语言模型到神经网络语言模型的发展过程,以及Word2Vec的几种训练目标和训练方法。之后简单描述了深度学习的基础知识。       师兄讲完之后,刘辰巍、燕红磊提出了问题。严春伟师兄给出了解释,期间大家讨论的内容很多,希望可以从中有所收获。以下为问答对话:       刘辰巍问:word2vec与SVM-perf 都能够用来做分类,那从分类的效果上来看,哪一种会比较好呢? 严春伟答:这两种工具从作用上来看,前者,主要是用来学习词向量的,学习词的向量表示,在它的词向量的基础上进行分类和聚类,而且,学习的语料越多,则学习的效果越好。后者主要是用来做分类的,属于机器学习的一种工具,是一种监督式的机器学习的方法,分类效果比较明显,很难说哪种更好,但是,大家用SVM作为一种工具进行分类,是比较常见的。       燕红磊问:在词向量分类中,神经网络输入跟输出是什么?同时,Word2vec中的滑动窗口大小对结果有影响吗? 严春伟答:运用神经网络,输入是句子,输出是词向量,句子中词的顺序是有影响的。Word2vec中滑动窗口的大小对结果有影响。 附:获奖名单 优胜奖:候超俊 鼓励奖:严春伟 好问题奖:陶世博、马一宁、燕红磊、刘辰巍 PPT、活动录像存放地址:ftp://www.icnlab.cn/BigData/2015-2016year scientific research salon/first20150409/...
Read More

未来互联网与命名数据网络 课程主页

  未来互联网与命名数据网络是雷凯老师在信息工程学院开设的研究生春季课程。今年是开设该课程的第二年。该课程旨在帮助一年级的硕士研究生明确研究方向,课程设置包含论文调研、系统设计与开发、英文文献撰写等环节。   课程内容主要内容之一是命名数据网络(NDN,Named-data Networking)的相关研究。NDN在内容分发效率、网络安全和部署方面具有显著的优势,是下一代互联网体系结构的有力候选者。课程的另一部分内容重点关注当今互联网的热门信息技术,包括高并发Web技术、移动互联网、社交网络、可视化信息系统、大数据、云计算等内容。这两部分内容是未来互联网在大规模数据处理方面的系统设计、网络协议的主要研究领域,分别在系统层面和网络层面解决当前互联网所面临的关键问题,探索下一代互联网发展方向。   该课程主要针对研究方向为计算机网络的同学,要求选课学生具备计算机网络和操作系统的基础知识,良好的软件工程和网络编程能力(Java、C++),以及Linux、Windows相关系统编程和操作经验。同时要求选课学生具备具备良好的英文听说读写能力和一定的研究能力。...
Read More

2015年互联网实验室元旦联欢活动成功举办

      2015年1月16日下午1点至5点,在期末考试结束之际,互联网实验室雷凯老师、李大刚老师、黄连恩老师、程如中老师与30多名同学们欢聚一堂,在红双喜KTV共同庆祝新年的到来。在整个聚会中大家的表现非常积极,热情及活跃,营造了一个轻松愉快的氛围。       聚会在张炜阳师兄的Viva La Vida中拉开帷幕,师兄将这首歌演绎的铿锵有力,使我们回味无穷,真不愧对“歌神”的称号!随后的《小苹果》、《我的滑板鞋》、《杀马特遇见洗剪吹》等一系列“神曲”更是嗨翻了全场!与此同时,一部分同学在玩UNO和三国杀等纸牌游戏。听着动听的歌曲,吃着美味的零食,玩着有趣的游戏,真是太欢乐了!       不仅咱们实验室的同学们唱歌跳舞样样精通,老师们也是深藏不露。黄连恩老师和李大刚老师各献歌一首,歌声动听,唱的我们如痴如醉。随后雷老师向同学们送上了新年祝福,并现场献歌三首,将现场的气氛带向了高潮。今天不仅是实验室的新年聚会,还是雷老师的生日,当我们得知这个消息都很惊讶,纷纷为雷老师送上了生日的祝福。       最激动人心就是抽奖环节了,经过三轮激烈的抽奖后,张轶航同学抽中了大奖,获得机械键盘一个,其他同学们得到了京东购物劵、耳机分线器等奖品。作为本场的幸运之星,张轶航同学代表大家为雷老师献上了生日快乐歌,祝福雷老师在今后的日子里心想事成,万事如意!       聚会在美妙的歌声中结尾,大家在ktv里合影留恋,为本次实验室新年聚会画上了圆满的句号。在此,我们相信大家在新的一年里,一定会更加团结友爱、互帮互助,共同学习、共同进步,也祝福我们互联网实验室会越来越好! ...
Read More