2015-2016科研沙龙(四)
时间:2015.11.30
地点:A栋118室
主讲人:15级司尚春、温德斯、张强
主持人:周颖
参与人员:雷凯老师、沈颖老师及14、15级实验室同学
活动内容:
第一次科研沙龙同学们收获颇丰,所以,在深圳温暖的冬季11月底,应同学们积极响应,我们实验室再一次迎来了本学期第二次科研沙龙。这次科研沙龙形式上主要为3位主讲人针对同一话题-“知识图谱”,从概念介绍、构建、技术、开源平台、评测和意义等方面循序渐进的进行讲解,之后的讨论环节留给同学们提问和互相解疑。
首先由15级的司尚春同学,从一个有趣的“姚明的女儿的妈妈的丈夫的身高”搜索结果引入知识图谱,介绍了知识图谱中节点、语义关系等基本概念,就什么是知识图谱展开讨论。之后针对知识图谱的六种构建方法,包括实体对齐、属性学习学习等方法细节,以及在构建知识图谱时候获取的不同知识之间的冲突解决方法。司尚春同学讲解经常以例子做引导,比如医学领域中的传染病与茶树枝梢点黑病的上下围关系、肥胖病和肥胖等同义实体的重定向问题,让同学们快速而形象的理解抽象的知识点。此外,他还提及几种构建中涉及到的技术,比如不同知识库的爬虫、共指消解、自然语言处理等技术,让同学们对知识图谱从概括到具体构建流程由浅入深的了解。
然后,温德斯同学给大家介绍了知识图谱数据源的分类,如维基百科、freebase 、cyc、wolfram alpha和行业知识库等半结构化数据库,并提供给大家可供下载的网址。在对每个数据库的历史和不同的数据特点和提取方法介绍完之后,引入其评估方法,比如基于应用、基于数据、基于人工等不同的评估使同学们对知识图谱从数据和测量上有了更深入的了解。
最后, 张强同学就知识图谱能做什么,从三个具体的应用例子给大家描述,可以说是举例对比,比如传统检索or智能检索。而并且针对能否成为第二代搜索引擎展开讨论,雷老师也说二者可能会是并列的补充关系而不能完全替代,而沈颖老师则从信息医疗方面表示在行业内应用应该是没有问题。之后,张强还给大家介绍知识图谱在知识导航以及决策系统方面的优势和应用,以及在图书馆和证券行业的真实有效作用。
介绍结束后,大家对该技术能否成为下一代搜索引擎、技术支持等展开了热烈讨论。有同学比较关注数据存储方法,比如爬取到的数据上下围关系路径的存储方式,朱帅同学则对知识图谱的聚类和可视化工具技术问题提出他的看法。王少华提出“作为下一代搜索引擎,他的商业模式、广告处理等问题可以解决么”,司尚春同学立即解释“一个引擎好用,有人用,模式商机自然就来了”,张强也进一步说到,知识图谱也可以有自己的广告商业方法,相比于原来的搜索引擎只是多了一个智能化选择而已。此起彼伏的讨论一直持续了半小时之久。
最后总结时,雷老师肯定主讲人用心的准备,是对实验室整体同学知识输入的一个贡献。知识图谱本质的改变是将语义与关联关系考虑进去,并且分析上网挂号与知识图谱结合例子。老师强调,一定要定位知识图谱的用户群,并考虑市场需求分析,“这不仅仅是一次活动,这只是一个开始。”雷老师如是说,“有兴趣的同学都都来讲讲,对这几个点可以进一步研究进展下去”。
附:获奖名单
鼓励奖:司尚春、温德斯、张强
好问题奖:王少华、朱帅、徐丽妹、陈辰
PPT、活动录像存放地址:ftp://219.223.192.208/pub/BigData/2015-2016yearscientific researchsalon/20151130/...