第1741章 别被技术细节吓住 (4 / 10)
现在网页主要是HTML,虽然各家写法不一样,但基本结构是固定的。
链接都在<a href=>标签里,用正则表达式可以提取。”
贾瀞雯打断:“正则表达式是什么?”
“一种文本匹配的方法。”陈浩解释,“比如你要找所有以‘’开头的字符串。
这个让技术人员去查资料,他们懂。”
“第三,防止死循环。
每个访问过的链接都要记录下来,下次遇到就直接跳过。
还要设置深度限制,不能无限爬下去。”
贾瀞雯飞快地记着。
陈浩的声音很平静,好像这些难题都不是问题。
The content is not finished, continue reading on the next page