与广度优先的抓取方式相反,深度优先首先跟踪浅层页面中的某一连接后 逐步抓取深层页面,直到抓完最深层的页面才返回浅层页面再跟踪另一链接,继续向深层页面抓取,这是一种纵向的页面抓取方式。使用深度优先的抓取方式,搜索引擎可以抓取到网站中较为隐蔽、冷门的页面,这样就能满足更多用户的需求。
首先,搜索引擎会抓取网站的首页,并提取首页中的链接,再沿着其中的一个连接抓取到页面A-1,同时获取A-中的链接并抓取页面B-1,获取B-1中的来链接并抓取页面C-1,如此不断地重复,满足到某个条件后,再从A-2抓取页面及链接。