您好!欢迎来到一线生活-深圳论坛
关注我们
扫码关注官方微信
手机版
手机扫描直接访问

如何批量采集内容?小白站长福音,自动化采集部署攻略

0
回复
152
查看
[复制链接]

8785

主题

1万

帖子

2万

积分

论坛元老

Rank: 8Rank: 8

积分
29673
发表于 2022-10-21 15:22:26 | 显示全部楼层 |阅读模式


之前一篇文章讲解过垃圾网站的情况,其中提到了一种特殊的垃圾网站,就是利用采集插件来实现网站内容的自动化填充。

笔者以前没做过采集,近期准备做一个资源分享站,由于资源素材量过于庞大,又是自己一个人做,于是花三百块请人做了一个采集,研究后发现也不是很难,今天就分享给大家。
一、认识采集插件




想要用好采集工具首先要知道有哪些采集工具,如果你的网站是用各种开源系统建立(关于开源系统可以翻阅我以前的文章)的,一般都会有对应的采集插件,另外还有一些比较出名的采集软件。

在采集上笔者也不是专业的,今天就只分享笔者所使用的火车头采集软件,它不是以插件方式存在,而是以独立软件方式存在,只能运行在windows的系统当中。

使用火车头采集,你需要知道如何配置发布端以及如何配置采集对象。所谓的发布端就是你自己的网站,所谓的采集对象就是你要提供的具体采集对象的页面内容。
二、如何配置发布端

由于是花钱请人制作的,这个部分恰恰是笔者无法清晰阐述的地方,因为发布模块被设置了访问密码。



由于笔者是付钱请人制作的,所以有理由相信模块的制作者也是为了保护自己的劳动成果。但是同时,笔者也发现一个网站可以下载各种开源系统的发布模块。



同时在这个网站也有很多采集功能编写的学习类文章,有兴趣的朋友可以深入挖掘一下,如果不想深入挖掘的,可以看看里面是否有你使用的网站系统的发布模块。
三、如何配置采集端

这里不得不说笔者也是偷了个懒,没有自己去认真学习采集,只是在别人写好的规则基础上研究了一下。



从上列截图中可以看到,这里是采集配置的第一个地方,左侧的“1级列表页”代表我想采集的页面只有一个层级的列表,接下来就是干货了!
1、提取规则中的代码从哪里获取?

· 通过浏览器打开起始网址(也就是我们要采集的内容的页面)



· 在打开的页面按F12(windows电脑)调出网页调试



· 选择小箭头(mac跟windows系统有所区别,自行寻找)



· 选择页面中的内容区域



仔细对比一下这里的代码跟提取规则里面的代码是否一模一样?没错,提取规则就是要将这个内容作为入口。同时提取这张缩略图以作为你自己网站发布的缩略图所用。

注:其中【参数】标签是需要提取的信息,而(*)标签代表忽略信息。
2、设置区域从哪里获取?

还是用刚才的方法,这次我们用小箭头选择整个列表页:



再来对比一下



而另外一个实际上是翻页标签,要知道这个列表有很多分页,采集系统需要识别从哪里翻页:



除此之外,还有一些配置需要完成,但是基本的操作方法都是类似。如下图:



3、内容采集规则




请注意上面的标签列表每个人都不同,只有标题和内容是通用的,这里我就主要讲标题和内容的提取:

首先我们要进入到采集对象的文章内容页面,然后采用之前同样的方法来获取源代码部分。一般标题默认都会在头部标签当中(不懂什么叫头部标签的可以翻我以前的文章关于前后端整合的有介绍):



所以填入固定标签:"title": "[参数]”即可!如下图:



意思是读取title:标签后面的参数,请注意这里选择的是正则提取,就是从一段特定的内容中提取我们需要的参数采集过来。大家注意截图中下面有一个数据处理,是什么意思呢?



截图中可以看到,毕竟是从别人的网站采集内容,难免别人会带上自己的一些网站标示,而我们要把别人的内容拿来使用自然是不希望出现别人网站的标示的,这时候就需要通过数据处理功能来自动替换一些我们想要替换的内容了。




可以看到里面有很多的高级替换功能,如果是要去除就采取去除规则就行了,其它规则可以自行研究一下。

注:数据处理可以同时添加多项规则,可以同时处理多项替换功能。

下面介绍内容采集,内容区域的采集我们选择前后截取,什么意思呢,就是通过定义头和尾,采集头尾中间的全部内容:



上面第一个方框截取的代码是开头,而第二个方框截取的代码是结尾,由于代码被折叠了,大家可能没看到细节代码,但是也不需要,我们从上面的浏览器绿色和蓝色区域可以看到实际上已经截取了整个文章内容区域了。




填入到开头字符串和结尾字符串即可。然后在数据替换中,为了避免采集到的信息以代码的方式被采集到自己网站,我们就需要做一些数据处理让采集到的内容变成尽可能简单的文本了!其中HTML标签排除的应用可以排除掉一些我们不希望采集到的内容:



其它的采集对象就需要根据实际的发布项来采集了,大致的规则都差不多!最后进行测试采集和发布即可,会玩点电脑的小白自己都能摸吧!(反正小编以前没摸过采集,有个样板参考瞬间莫会!)
四、结语

小编以前也没玩过采集,第一次接触,偶感确实方便,不自觉地就分享出来了!当成教程有所不足,也就是让大家有个基础了解,如果想要系统的学习,可以自己找些采集方面的资料学习!最后说明一点,本文所演示的采集对象仅用于演示,织梦58网谅解。

大家请正确合理合法的应用采集功能,关注我了解更多小白可以学习的网络知识,如有疑问可以留言咨询!
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

联系我们

免费联系电话

400-8855-271

客服QQ:2524604571

服务时间:周一到周日8:00-23:30

关注我们
  • 关注官方微信

  • 手机APP