继 1 月 6 日 的成功举办深圳金沙湾冬游活动后,互联网中心再次举办“学术大餐”活动迎接牛年的到来。北京大学教授、北京大学网络实验室负责人、博士生导师李晓明携闫宏飞副教授 彭波 老师, 王卫红 老师, 谢正茂 老师共 6 人 以及香港科技大学在读博士周红,香港城市大学博士祝建华齐聚北京大学深圳研究生院为研究生院的学生们送上了新年以来最大的一份学术披萨。
1 月 10 日 ,对于 C 栋 104 教室来说一个热闹而且有意义的一天,因为在这里今天安排了 5 场学术讲座。首先,李晓明教授对最近大家普遍关心的“云计算、网格计算、虚拟化技术”进行了讲解,并现场进行了虚拟机迁移技术的演示。他分别从四类用户角度阐述了云计算,以及提出用虚拟化来实现设备的“高可动员性”。实现动态虚拟机群,关键技术之一就是虚拟机的无缝迁移。
然后,香港科技大学的博士周红博士对信息可视化技术进行详细讲解。她指出人类 80% 信息获取来自 human vision 。所以,用图片加重来表达抽象信息对于人类的对信息获取更具有高效性。所谓千字不如一图,千图不如一影。
接着,香港城市大学博士祝建华对 Internet user Research 相关知识进行细致的阐述。他指出社会学研究中怎样在海量数据中进行 random walking 能得到代表性很高的样本。他举例说美国媒体十几年来用 2 千人为样本来代表 2 亿人做民意调查,而结果百分率平均相差不到 4% 。
接下来,北京大学网络实验室博士后闫宏飞对他研究的 Paradise– 一个开放式的智能化中文搜索引擎 — 使用到的各类主要技术和大家进行了有效交流。主要包括分布式倒排索引建立,使用单趟排序、容错机制来进行改进,以及采用的模块化技术、索引压缩技术、摘要提取技术等。
最后,北京大学网络实验室博士彭波给大家讲述了怎样在将来的 PB 量级的数据情况下去编程,以及阐述了现在应当做哪些准备。他指出随着 PC 机廉价性继续,将来采用分布式利用资源将是一大趋势。对于百万量级数据,存储和计算越近越好。他随后还对 MapReduce 等技术进行了相关讲解。
——————————————————————————————
讲座时间:1月10日(周六)早上8点半 讲座地点:c104
讲座题目:《网络计算新技术系列报告会》
主 讲 人:
李晓明教授 闫宏飞副教授 彭波博士 北京大学网络与分布式研究所, http://net.pku.edu.cn
祝建华 教授 香港城市大学 http://zjz06.yculblog.com
周虹博士 香港科技大学 计算机与电子工程系 http://www.cse.ust.hk/~zhouhong/
互联网使用研究中的抽样问题
Sampling Issues in Internet Use Research
祝建华 Jonathan Zhu
香港城市大学-中国人民大学
j.zhu@cityu.edu.hk
zjz06.yculblog.com
互联网使用研究主要涉及网页内容和网民行为两个部分,常用的数据采集包括调查、内容分析、心理学实验等传统方法和机器分析网页、在线调查、访问日志分析等自动化手段。无论采用何种方法,一个基本但常被忽略的问题是抽样( sampling )。在大部分科学与工程研究中,被研究的对象个体之间没有或者很少差异,所以简便和少量的抽样结果就足够了。互联网研究的最终对象是人。各种用户之间的差异不仅巨大,而且往往不易直接观察或想像到。因此,依靠简便或少量的抽样,其结果往往不具有能够反映总体真实情况的代表性( the representatitiveness of the population under study )。本报告将介绍社会科学研究遵守的基本抽样原理及其在互联网研究中的应用与困难。