博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
爬虫是什么 && 爬虫的种类
阅读量:6191 次
发布时间:2019-06-21

本文共 493 字,大约阅读时间需要 1 分钟。

网络爬虫又被称为网页蜘蛛。是一种按照一定的规则,自动地抓取信息的程序或者脚本。

分类:

通用网络爬虫(General Purpose Web Crawler)、
聚焦网络爬虫(Focused Web Crawler)、
增量式网络爬虫(Incremental Web Crawler)、
深层网络爬虫(Deep Web Crawler)。

常用的爬行策略有:深度优先策略、广度优先策略

  1. 深度优先策略:其基本方法是按照深度由低到高的顺序,依次访问下一级网页链接,直到不能再深入为止。 爬虫在完成一个爬行分支后返回到上一链接节点进一步搜索其它链接。 当所有链接遍历完后,爬行任务结束。 这种策略比较适合垂直搜索或站内搜索, 但爬行页面内容层次较深的站点时会造成资源的巨大浪费

  2. 广度优先策略:此策略按照网页内容目录层次深浅来爬行页面,处于较浅目录层次的页面首先被爬行。 当同一层次中的页面爬行完毕后,爬虫再深入下一层继续爬行。 这种策略能够有效控制页面的爬行深度,避免遇到一个无穷深层分支时无法结束爬行的问题,实现方便,无需存储大量中间节点,不足之处在于需较长时间才能爬行到目录层次较深的页面

转载地址:http://frrda.baihongyu.com/

你可能感兴趣的文章
C++中的RTTI机制解析
查看>>
文件IO
查看>>
小程序开发(1)-- 请求域名必须是https开头安装SSL证书
查看>>
Spring Boot源码解析
查看>>
dockerfile语法(一)
查看>>
Java 五个有用的过滤器
查看>>
H5移动端知识点总结
查看>>
如何优雅的添加MGR 节点
查看>>
数据库-查看数据
查看>>
Cookie的弊端
查看>>
如何将自定义CSS添加到您的Joomla站点
查看>>
免费App开发解决方案 一键生成App
查看>>
圈钱的道路上廖翔从不缺席
查看>>
Spring Cloud-鸿鹄Cloud分布式微服务云系统—架构图
查看>>
set uid 、set gid 、sticky bit、软链接、硬链接
查看>>
linux 中的计划任务之crontab
查看>>
(三)跟我学习dubbo-Dubbo管理控制台的安装
查看>>
java B2B2C Springcloud电子商务平台源码------Hystrix的缓存使用
查看>>
BUTXO详解
查看>>
基于 Docker 快速部署多需求 Spark 自动化测试环境
查看>>