爬虫是什么 && 爬虫的种类-白红宇

强烈建议你试试无所不能的chatGPT，快点击我

爬虫是什么 && 爬虫的种类

阅读量：6191 次

发布时间：2019-06-21

本文共 493 字，大约阅读时间需要 1 分钟。

网络爬虫又被称为网页蜘蛛。是一种按照一定的规则，自动地抓取信息的程序或者脚本。

分类：

通用网络爬虫（General Purpose Web Crawler）、

聚焦网络爬虫（Focused Web Crawler）、

增量式网络爬虫（Incremental Web Crawler）、

深层网络爬虫（Deep Web Crawler）。

常用的爬行策略有：深度优先策略、广度优先策略

深度优先策略：其基本方法是按照深度由低到高的顺序，依次访问下一级网页链接，直到不能再深入为止。爬虫在完成一个爬行分支后返回到上一链接节点进一步搜索其它链接。当所有链接遍历完后，爬行任务结束。这种策略比较适合垂直搜索或站内搜索，但爬行页面内容层次较深的站点时会造成资源的巨大浪费

广度优先策略：此策略按照网页内容目录层次深浅来爬行页面，处于较浅目录层次的页面首先被爬行。当同一层次中的页面爬行完毕后，爬虫再深入下一层继续爬行。这种策略能够有效控制页面的爬行深度，避免遇到一个无穷深层分支时无法结束爬行的问题，实现方便，无需存储大量中间节点，不足之处在于需较长时间才能爬行到目录层次较深的页面

转载地址：http://frrda.baihongyu.com/

你可能感兴趣的文章

C++中的RTTI机制解析

小程序开发（1）-- 请求域名必须是https开头安装SSL证书

Spring Boot源码解析

dockerfile语法(一)

Java 五个有用的过滤器

H5移动端知识点总结

如何优雅的添加MGR 节点

数据库-查看数据

Cookie的弊端

如何将自定义CSS添加到您的Joomla站点

免费App开发解决方案一键生成App

圈钱的道路上廖翔从不缺席

Spring Cloud-鸿鹄Cloud分布式微服务云系统—架构图

set uid 、set gid 、sticky bit、软链接、硬链接

linux 中的计划任务之crontab

（三）跟我学习dubbo-Dubbo管理控制台的安装

java B2B2C Springcloud电子商务平台源码------Hystrix的缓存使用

基于 Docker 快速部署多需求 Spark 自动化测试环境

喝酒易醉，品茶养心，人生如梦，品茶悟道，何以解忧？唯有杜康！-- 愿君每日到此一游！

当前时间: 2025-01-07 21:23:16 当前IP: 3.147.77.51 联系邮箱:javaeecc@qq.com Copyright © 2020 - 2022 baihongyu.com 京ICP备2021015314号-2

强烈建议你试试无所不能的CHAT-GPT，快点击我

强烈建议你试试无所不能的CHAT-GPT，快点击我