教育行业A股IPO第一股(股票代码 003032)

全国咨询/投诉热线:400-618-4000

什么是增量式爬虫?什么是深层网络爬虫?

更新时间:2022年08月18日09时58分 来源:传智教育 浏览次数:

好口碑IT培训

  网络爬虫历经几十年的发展,技术变得更加多样化,并结合不同的需求衍生出类型众多的网络爬虫。网络爬虫按照系统结构和实现技术大致可以分为4种类型,分别是通用网络爬虫、聚焦网络爬虫、增量式网络爬虫、深层网络爬虫。接下来,对增量式爬虫和深层网络爬虫这两种爬虫分别进行介绍。

  1.增量式爬虫

  增量式网终爬虫(Incremental Web Crawler)是指对已下载的网页采取增量式更新,只抓取新产生或者已经发生变化的网页的网络爬虫。

  增量式网络爬虫只会抓取新产生的或内容变化的网页,并不会重新抓取内容未发生变化的网页,这样可以有效地减少网页的下载量,减少访问时间和存储空间的耗费,但是增加了网页抓取算法的复杂度和实现难度。


网络爬虫


  2.深层爬虫

  深层网络爬虫(Deep Web Crawler)是指抓取深层网顷的网络爬虫,它要抓取的网页层次比较深,需要通过一定的附加策略才能够自动抓取,实现难度较大。

  表层网页与深层网页

  网页按存在方式可以分为表层网页(Surface Web)和深层网页(Deep Web),关于这两类网页的介绍如下。

  表层网页是指传统搜索引擎可以索引的页面,主要以超链接可以到达的静态网页构成的网页。

  深层网页是指大部分内容无法通过静态链接获取的,只能通过用户提交一些关键词才能获取的网页,如用户注册后内容才可见的网页。

0 分享到:
和我们在线交谈!