字体
关灯
上一章 目录 下一页 进书架
    第1745章 一句话点醒了贾瀞雯 (3 / 10)

        爬虫、索引、分词、排序……每个模块都做了,每个模块都能工作,可组合起来就是这个结果。

        “问题出在哪儿?”她问。

        李明站起来,走到白板前:“首先是索引结构。

        我们现在用的是最简单的倒排索引,但数据量一大,查询效率就低。

        需要优化数据结构。”

        张涛补充:“分词也有问题。

        基于词典的方法太死板,很多新词、专业词切分不准。

        比如‘奔腾处理器’,我们的词典里没有这个词,就切成‘奔腾’和‘处理器’,但用户可能搜‘奔腾处理器’整个词。”

        “排名算法也不够聪明。”王磊说,“现在基本是按关键词出现次数排序,但这样很容易被垃圾页面钻空子。

        一个页面堆满关键词,就能排到前面,可内容根本没价值。”

        贾瀞雯听着,一条条记在本子上。

  The content is not finished, continue reading on the next page
  • 上一章 目录 下一页