字体
关灯
上一章 目录 下一页 进书架
    第1741章 别被技术细节吓住 (1 / 10)

        办公室的白板上写满了字。

        李明的粉笔停在半空,眉头皱成一个疙瘩。

        他转身看向另外四个同伴,又看看坐在会议桌旁的贾瀞雯。

        “贾总,这个‘网页爬虫’的概念……我们研究了三天,还是有点不明白。”他放下粉笔,拍了拍手上的粉灰,“文档上说,要让程序像蜘蛛一样在网上爬,自动发现和收集网页。

        但具体怎么实现?”

        张涛推了推眼镜,翻开陈浩写的技术框架文档:“这里写了一些思路--从几个种子网站开始,提取页面上的链接,然后访问这些链接,再提取新链接。

        理论上可行,但实际做起来问题很多。”

        “什么问题?”贾瀞雯问。

        “比如,有些网站不允许被访问。”说话的是王磊,团队里最年轻的一个,北大研究生在读,“还有,网页格式千奇百怪,怎么准确提取链接?再比如,如果程序陷入死循环怎么办?”

        贾瀞雯点点头。

  The content is not finished, continue reading on the next page
  • 上一章 目录 下一页