字体
关灯
上一章 目录 下一页 进书架
    第1741章 别被技术细节吓住 (4 / 10)

        现在网页主要是HTML,虽然各家写法不一样,但基本结构是固定的。

        链接都在<a href=>标签里,用正则表达式可以提取。”

        贾瀞雯打断:“正则表达式是什么?”

        “一种文本匹配的方法。”陈浩解释,“比如你要找所有以‘’开头的字符串。

        这个让技术人员去查资料,他们懂。”

        “第三,防止死循环。

        每个访问过的链接都要记录下来,下次遇到就直接跳过。

        还要设置深度限制,不能无限爬下去。”

        贾瀞雯飞快地记着。

        陈浩的声音很平静,好像这些难题都不是问题。

  The content is not finished, continue reading on the next page
  • 上一章 目录 下一页