感谢09级的师兄们在毕业之前为我们讲解展示他们的毕设研究。今天由李启林师兄主讲了他的毕设研究。
他指出现存的maze系统存在以下方面的不足:
       (1) 新进的资源不能被及时检索到
       (2) 已经被删除的结果仍然出现在搜索结果当中
       (3)索引本身的问题
       (4)重建周期过长
       (5)没有做切词,索引过大
       (6)索引不支持更新,只支持重建
       (7)检索过程无用操作过多
       (8)因为要在线过滤,9/10的工作属于无用操作

系统的问题

针对索引问题,他提出了一种内存索引结构---Hash+,以及使用内存池,并在maze上实现了中文切分词。
 hash+结构特点:
       (1)运行的过程当中自动调整key的位置
       (2) 最可能被访问到的都出现在AVL树当中
       (3)最可能被删除的都出现在链表当中
       (4) 提高结果的查询效率,减少插入和删除带来的过多的AVL树的旋转

2012 5月26日科研沙龙,09级李启林《Maze内存索引技术》插图1
 针对maze系统的特点,他提出的中文分词结构特点:
       (1)只关注速度,而不去除歧义,采用机械匹配方式
       (2)支持繁体字转简体字
       (3)支持停用词
       (4) 词典采用全hash的方法
2012 5月26日科研沙龙,09级李启林《Maze内存索引技术》插图2
他讲解完毕之后,跟恩哥和同学们进行了热烈的讨论,恩哥则对他的ppt讲解提出了良好的指导意见。
通过这次讲解,师兄和同学们都但受益匪浅。 抽奖环节,同学们觉得师兄讲的这么好,
决定把这个小奖品给师兄,让他们毕业之前中一次奖。

发表评论

您的电子邮箱地址不会被公开。