系统:PC
日期:2021-07-31
类别:网络工具
版本:v2.3.3
蓝天采集器是一款非常好用的爬虫系统,它可以部署在云端,支持各种CMS系统,可以帮助用户自动采集和实时发布数据。蓝天采集器使用起来也很方便,而且功能是完全免费的,没有任何使用限制,有需要的用户敬请下载。
蓝天采集器致力于网站数据自动化采集发布,系统采用PHP+Mysql开发,可部署在云端服务器,使数据采集便捷化、智能化、云端化,让您随时随地移动办公!
数据采集
支持多级、多页、分页采集,自定义采集规则(支持正则、XPATH、JSON等)精准匹配任意信息流,几乎能采集所有类型的网页,绝大多数文章类型页面内容可实现智能识别
内容发布
无缝对接各类CMS建站程序,实现免登陆导入数据,支持自定义数据发布插件,也可以直接导入数据库、存储为Excel文件、生成API接口等
自动化及云平台
软件实现定时定量全自动采集发布,无需人工干预!内置云平台,用户可分享及下载采集规则,发布供求信息以及社区求助、交流等
将下载的软件上传至您的服务器,如果根目录有站点建议放在子目录里,解压后打开浏览器输入您的服务器域名或ip地址(存放在子目录则加上子目录的名称),进入安装界面
点击“接受”,进入环境检测页面
必须确保所有参数都正确,否则使用中会出现错误,点击“下一步”进入数据安装界面
填写好数据库及创始人配置,点击“下一步”
最后安装完成,现在可以使用蓝天采集器了!
创建任务
登录后台,左侧导航中点击“添加任务”
添加任务页面
“导入任务”可以复制其他任务的所有设置(包括采集器设置、发布设置)
“导入规则”可以从其他任务或文件中复制采集器设置
“更多设置”可以为任务单独配置采集设置
采集器设置
点击任务底部进度条的“采集器设置”进入规则编辑界面
输入采集规则名称和目标网站编码(可自动检测)
页面渲染可自动加载出ajax内容,适用于js脚本较多的页面
自动补全网址可以将网页中的相对地址(不包含域名的网址)转为绝对网址(包含域名)
网址不排重,默认会将采集过的内容页排重处理,不排重适用于更新频繁的动态页面
修改请求头信息以适应需要登录的、手机浏览的等界面
起始页网址
添加需要采集的目标列表页
点击“+”号可批量添加网址,勾选“设置为内容页网址”可直接采集输入的网址,否则作为列表页需要进行分析提取出内容页网址
内容页网址
编写提取内容页网址的规则,默认提取所有网址,如需精准可设置“提取网址规则”
多级网址获取:适用于小说、影视等连载形式的内容
只要内容页网址不是直接从起始页抓取的,都可以通过多级来获取
关联页网址获取:适用于数据分散在多个页面中
如需要抓取的字段不在内容页,而在其他页面中,则可以使用该功能将其他页面也作为内容源
获取内容
“添加默认”可以自动设置几个常见的字段,能满足大部分文章类型的站点采集
如果目标数据格式比较复杂,可点击“+”自行编写字段规则,支持正则表达式、xpath、json等多种匹配方式
“数据处理”可将采集到的字段值进行过滤或替换内容,每个字段都可单独处理或使用通用处理
如需抓取分页,点击开启“内容分页”并编写规则,程序会自动抓取每个分页中的字段内容
测试规则
采集器配置完成后需点击保存按钮,刷新后可在“内容页网址”选项卡和“获取内容”选项卡中看到测试按钮
测试列表页中抓取网址
测试页面中抓取数据
测试抓取分页
发布设置
点击任务底部进度条的“发布设置”,选择发布方式
本地cms程序
可自动检测出服务器中的CMS程序,实现蓝天采集器和cms无缝对接
简单绑定对应的数据,不用登录即可入库,你还可以自行开发cms插件,理论上可实现任何CMS的任意入库操作
数据库
直接将数据入库,配置好数据库参数点击“数据表”
绑定数据表的字段和采集器的字段,多张表关联自增id,选择“自定义内容”输入“auto_id@表名”即可
存储为文件
支持Excel表格(xlsx或xls格式)、txt文本,隐藏采集字段可设置不写入文件的字段
生成api接口
可直接调用采集到的数据
调用接口
只要有相应cms的入库接口,就可以将数据远程发布到网站中,不必将采集器和网站放在同一服务器
当数据发送至远程接口并入库后需要返回响应状态,这样采集器才能正确记录数据的状态并用来进行排重处理
你只需要在接口代码最后或者数据入库后插入代码
exit(json_encode(数组));//数组必须是键值对形式,这样在响应状态中就可以直接绑定接口中返回的数组键名
自定义插件
适用于任何网站程序,按要求创建插件文件并编写代码即可
评分及评论
支持一波
谢谢!帮助很大
下载的最新版本,之前遇到的问题希望已经解决了
看看效果如何
太感谢了,终于有网站可以下载了,还没用,试过之后再来评论
点击星星用来评分