感谢09级的师兄们在毕业之前为我们讲解展示他们的毕设研究。今天由李启林师兄主讲了他的毕设研究。
他指出现存的maze系统存在以下方面的不足: (1) 新进的资源不能被及时检索到 (2) 已经被删除的结果仍然出现在搜索结果当中 (3)索引本身的问题 (4)重建周期过长 (5)没有做切词,索引过大 (6)索引不支持更新,只支持重建 (7)检索过程无用操作过多 (8)因为要在线过滤,9/10的工作属于无用操作
针对索引问题,他提出了一种内存索引结构---Hash+,以及使用内存池,并在maze上实现了中文切分词。 hash+结构特点: (1)运行的过程当中自动调整key的位置 (2) 最可能被访问到的都出现在AVL树当中 (3)最可能被删除的都出现在链表当中 (4) 提高结果的查询效率,减少插入和删除带来的过多的AVL树的旋转
针对maze系统的特点,他提出的中文分词结构特点: (1)只关注速度,而不去除歧义,采用机械匹配方式 (2)支持繁体字转简体字 (3)支持停用词 (4) 词典采用全hash的方法
他讲解完毕之后,跟恩哥和同学们进行了热烈的讨论,恩哥则对他的ppt讲解提出了良好的指导意见。
通过这次讲解,师兄和同学们都但受益匪浅。 抽奖环节,同学们觉得师兄讲的这么好,
决定把这个小奖品给师兄,让他们毕业之前中一次奖。