第1741章 别被技术细节吓住 (1 / 10)
办公室的白板上写满了字。
李明的粉笔停在半空,眉头皱成一个疙瘩。
他转身看向另外四个同伴,又看看坐在会议桌旁的贾瀞雯。
“贾总,这个‘网页爬虫’的概念……我们研究了三天,还是有点不明白。”他放下粉笔,拍了拍手上的粉灰,“文档上说,要让程序像蜘蛛一样在网上爬,自动发现和收集网页。
但具体怎么实现?”
张涛推了推眼镜,翻开陈浩写的技术框架文档:“这里写了一些思路--从几个种子网站开始,提取页面上的链接,然后访问这些链接,再提取新链接。
理论上可行,但实际做起来问题很多。”
“什么问题?”贾瀞雯问。
“比如,有些网站不允许被访问。”说话的是王磊,团队里最年轻的一个,北大研究生在读,“还有,网页格式千奇百怪,怎么准确提取链接?再比如,如果程序陷入死循环怎么办?”
贾瀞雯点点头。
The content is not finished, continue reading on the next page