文章目录[隐藏]
WordPress是一款功能强大的建站程序,很多个人创业者甚至企业建站都采用Wordpress,不过很多朋友苦于网站建好之后内容不够充实,造成网站收录数量太少,今天楚狂人给大家介绍一款免费的wordpress采集工具,很多站长都在用。今天分享的Wordpress采集插件-胖鼠采集,开源免费, 有列表批量自动采集,自动发布,自动打标签等功能,可以用于采集微信公众号、简书、知乎以及其它各类网站。
一、wordpress免费采集插件
胖鼠采集(Fat Rat Collect) 是一款能够帮助你网站文章自动化更新的采集工具。开源免费, 支持采集所有网站列表及详情页面 它拥有微信、简书、知乎、列表、历史、详情、等多种采集方式、还有自动采集, 自动发布, 自动打标签, 等许多黑科技功能, 一次创建规则, 后续省心省力。还有许多演示例子,一键可用。如: 微信、简书、知乎等许多例子!
二、wordpress采集插件安装
可以在wordpress后台——插件——安装插件——搜索“胖鼠采集”,然后安装,或者通过下面的地址下载:
官方下载地址:https://wordpress.org/plugins/fat-rat-collect/
备用下载地址:https://github.com/fbtopcn/fatratcollect
安装后如下图:
三、wordpress采集插件配置
1. 配置中心
在胖鼠采集插件配置中心就是已经配置好的采集规则的,Wordpress胖鼠采集插件自带了几个配置,你可以先点击导入一下。
2.采集中心
采集中心可以看到采集文章的多种模式,其中微信爬虫、简书爬虫、知乎采集都是现成的规则,而列表采集和详情采集可以由我们自己根据需要采集的目标设置具体规则,列表采集可以批量采集某一个网站,详情采集就是采集某一个页面。
3. 数据桶中心
采集完成后,我们可以到数据桶中心——进入桶。查看已经采集到的文章了,然后可以点击发布立即发布,或者修改后发布。
WordPress采集插件胖鼠采集和发布文章效果还是不错的。
四、wordpress采集微信公众号、简书、知乎
胖鼠插件采集微信公众号的文章非常地简单,先找到你要采集的微信公众号文章。然后在“采集中心”填入微信公众号文章的URL(支持批量添加多个URL),点击采集。采集完成后就可以发布采集过来的微信公众号文章了。WordPress采集简书、知乎等和上面采集微信公众号文章类似,直接输入URL就可以采集了。

五、胖鼠采集规则配置教程
胖鼠采集插件自带的几个配置规则实际上给我们演示和学习用的,如果我们要实现采集自由,就要学会自己配置Wordpress胖鼠采集插件采集规则,可以采集任意网站内容。
1 .新建采集规则
在Wordpress胖鼠采集插件选择“添加/修改(配置)”新建采集规则,先命名一下,配置类型选择列表配置(文章多,选择这个批量采集),如下图:
然后填写采集地址、范围、采集规则等,如下图:
必填配置介绍
必填配置介绍 | 描述 |
---|---|
采集地址 | 采集地址 |
采集范围 | 采集范围的选择,决定列表采集是否成功 |
采集规则 | Jquery一般填a 属性href 注意:如果在采集范围中已经定位到a标签这里可以留空 |
详情页采集区域 | 包含住你想要的数据块即可 |
详情页采集规则 | Title Content 两个字段为必填项 两个字段必须都获取到数据才能采集成功 |
一般来说采集规则需要经过多次的测试才能成功,在新建规则前我们可以先打开插件的Debugging模式,在Chrome浏览器审查元素的网络一栏查看具体结果。
每写一个规则。必须要使用debug测试列表页是否正常,标题是否正常,内容是否正常
第一步、查看网页是否可以采集、请看这篇文档
第二步、分别测试 link,title,content 分别是否可以获取到正确的内容,然后保存规则就可以使用了。
不懂的可以看:https://www.fatrat.cn/docs/v2/Q&A#check
如果遇到不确定想要的内容是否可以采集到的,可以使用debug测试,填写url地址,范围填写 body 或者 html Jquery选择器可以留空,属性填写html(意思是获取页面中body中的所有内容)。
点击测试按钮,看是否可以获取到页面的html,来求证是否可以正常访问到到目标页面的html数据,如果遇到网页看起来是可以采集的,但是内容是空的可以尝试更换编码。
有些网站看起来是正常的,但是确实采集不了。采集有很多小细节太多,很多站点html结构并不规范,浏览器可以包容他,但程序是无法包容的,除非你根据目标站点为他写一些特殊的代码。这种情况可以选择放弃。
2.列表采集规则
采集范围如何确定呢?我们用谷歌浏览器打开采集目标页,然后右键——检查——在源码中选择采集范围,不同的网站采集范围也不一样,比如我们测试采集的这个目标站采集范围是:
.newMainUl>li>.contBox
这个路径也不需要自己手动,直接在Chrome审查元素最下方可以看到。
而挖站否采集范围填写的是:#cat_all >.news-post.article-post > .row > .col-sm-7 > .post-content > h2。这就是因为不同网页的代码结构不同,所以每一个不同的网站都要重新设置采集范围。
列表采集规则写: a:eq(0) 和 href,href 意思是选择a标签的 href属性(就是URL),我们用 Jquery 的 eq 语法 a:eq(0) 意是取采集区域的 第一个 a。代码中从 0 开始(只有一个 a标签 可以只填 a 即可),如果目标站链接是相对链接,程序会自动补全的。
3.采集调试:
在debugging模式下,我们填好采集范围和采集规则之后,点击“请求调试”,然后按F12,在弹出窗口点击——Network——admin.ajax.php——data,如果规则填写正确就可以看到获取到了所有文章的URL地址了。
4.详情采集规则
上面我们已经采集了列表下的所有的URL,接下来我们就需要采集该URL下的l文章内容了。打开列表某一个文章,我们同样右键——检查,可以看到标题和内容都在.newsMainBox下面。
那么“详情页面采集区域”就可以确定为.newsMainBox
根据同样的方法,我们再获取title和content范围。
上面分享的图文教程如果你看完之后还觉得没有学会,可以看一下作者的视频教程:
https://v.youku.com/v_show/id_XNDI5MTQ2NzkwMA==.html
六、采集成功后的发布
设置好采集规则和采集范围后,回到采集中心,点击我们刚刚配置好的列表采集配置,然后插件会开始进行爬取。
稍等一会儿,Wordpress胖鼠采集插件就将最新文章全部采集过来了。采集成功后文章会存储在胖鼠采集的“数据桶中心”,我们可以直接选择“快捷发布”,也可以进入桶,选择单篇文章进行发布或者预览。
注意:
此时发布的文章并不会发布到前台,而是会进入wordpress的草稿文章,我们可以到“所有文章——草稿”中去对文章进行预览和修改,然后再进行发布。
七、自定义采集规则
1. 参数与属性
胖鼠采集插件必填参数有三个:
link——采集链接,一般是取 a 标签的 href 属性
title——标题,一般取详情页的 h1 标签的 text 文本属性
content——内容,一般取详情页面的 .content 标签 里面 html 属性。
胖鼠采集插件属性解释如下:
href_——基本指 a 标签的 href 属性(这个属性存储的是点击后跳转地址)
text——获取区域的文本 ,一般用于标题
html——取区域的所有的html,一般用到取内容,内容比较多。且内容有排版里面有 image css js 很多东西 。所以要拿到所有的原始html
2. jQuery 选择器
jQuery 选择器几个如:first、:last、:odd等在内容过滤中非常有用,大家可以熟悉一下。
选择器 | 实例 | 选取 |
---|---|---|
* | $("*") | 所有元素 |
#id | $("#lastname") | id="lastname" 的元素 |
.class | $(".intro") | 所有 class="intro" 的元素 |
element | $("p") | 所有 <p> 元素 |
.class.class | $(".intro.demo") | 所有 class="intro" 且 class="demo" 的元素 |
:first | $("p:first") | 第一个 <p> 元素 |
:last | $("p:last") | 最后一个 <p> 元素 |
:even | $("tr:even") | 所有偶数 <tr> 元素 |
:odd | $("tr:odd") | 所有奇数 <tr> 元素 |
:eq(index) | $("ul li:eq(3)") | 列表中的第四个元素(index 从 0 开始) |
:gt(no) | $("ul li:gt(3)") | 列出 index 大于 3 的元素 |
:lt(no) | $("ul li:lt(3)") | 列出 index 小于 3 的元素 |
:not(selector) | $("input:not(:empty)") | 所有不为空的 input 元素 |
:header | $(":header") | 所有标题元素 <h1> - <h6> |
:animated | 所有动画元素 | |
:contains(text) | $(":contains('W3School')") | 包含指定字符串的所有元素 |
:empty | $(":empty") | 无子(元素)节点的所有元素 |
:hidden | $("p:hidden") | 所有隐藏的 <p> 元素 |
:visible | $("table:visible") | 所有可见的表格 |
s1,s2,s3 | $("th,td,.intro") | 所有带有匹配选择的元素 |
[attribute] | $("[href]") | 所有带有 href 属性的元素 |
[attribute=value] | $("[href='#']") | 所有 href 属性的值等于 "#" 的元素 |
[attribute!=value] | $("[href!='#']") | 所有 href 属性的值不等于 "#" 的元素 |
[attribute$=value] | $("[href$='.jpg']") | 所有 href 属性的值包含以 ".jpg" 结尾的元素 |
:input | $(":input") | 所有 <input> 元素 |
:text | $(":text") | 所有 type="text" 的 <input> 元素 |
:password | $(":password") | 所有 type="password" 的 <input> 元素 |
:radio | $(":radio") | 所有 type="radio" 的 <input> 元素 |
:checkbox | $(":checkbox") | 所有 type="checkbox" 的 <input> 元素 |
:submit | $(":submit") | 所有 type="submit" 的 <input> 元素 |
:reset | $(":reset") | 所有 type="reset" 的 <input> 元素 |
:button | $(":button") | 所有 type="button" 的 <input> 元素 |
:image | $(":image") | 所有 type="image" 的 <input> 元素 |
:file | $(":file") | 所有 type="file" 的 <input> 元素 |
:enabled | $(":enabled") | 所有激活的 input 元素 |
:disabled | $(":disabled") | 所有禁用的 input 元素 |
:selected | $(":selected") | 所有被选取的 input 元素 |
:checked | $(":checked") | 所有被选中的 input 元素 |
八、胖鼠采集的优化
1. 内容过滤
正文内容中往往包含作者信息、广告、链接、版权声明等信息,我们需要从正文内容中过滤掉这些内容,标签过滤怎么用呢?
基本方法如下:
a 就是去除掉区域所有a标签跳转功能。保留文字 。
-a 删除a标签 包括删除a标签里面包含的内容 (不建议使用,因为有些图片是在a里面的 删除a 里面的 图片也没了。)
-div 删除所有div
-p 同上
-b 同上
-span 同上
-p:first 删除第一个 p标签
-p:last 删除最后一个 p标签
-p:eq(-2) 删除倒数 二个p
-p:eq(2) 删除正数 二个p
例如下面过滤规则:-div#ftwp-container-outer -div#sociables -div.uc-favorite-2.uc-btn -p:last -ol:first ,意思是删除#ftwp-container-outer 、#sociables、.uc-favorite-2.uc-btn 三个Div的内容,同时也删除最一个P和第一个ol列表。
2. 网址自动转化拼音
插件:Wenprise Pinyin Slug
地址:https://wordpress.org/plugins/wenprise-pinyin-slug/
胖鼠采集插件获取的标题地址含有文字,为了避免手动修改消耗时间,我们可以使用插件Wenprise Pinyin Slug,让WordPress自动把文章别名修改为英文或者拼音。
3. 自动添加标签
胖鼠采集插件自带了自动标签功能,但是需要获得激活权限。
如果你暂时不想激活,我们也可以使用自动标签插件 Simple Tags 自动为你的文章生成标签,自动添加链接地址等等。
插件:Simple Tags
地址:https://gl.wordpress.org/plugins/simple-tags/
4. 自动设置特色图片
胖鼠采集发布文章时,不会帮你设置特色图片,如果我们想要帮文章添加特色图片可以在草稿中手动添加,也可以使用插件自动添加。
插件:Quick Featured Images
地址:https://wordpress.org/plugins/quick-featured-images/
Quick Featured Images可以帮助你为自动采集和发布的文章设置特色图片。
九、wordpress自动采集和自动发布
WordPress胖鼠采集插件可以设置自动采集频率和自动发布间隔。
想要改变自动采集和自动发布的时间,你可以使用WP Crontrol 插件,启用该插件后应该能够看到WordPress网站上发生的所有“定时任务 ”。点击编辑定时任务(Wordpress胖鼠采集插件定时任务以fc开头),这里你就可以设置自动采集和自动发布的时间了。
插件:wp-crontrol
地址:https://wordpress.org/plugins/wp-crontrol/
总之,这款wordpress免费采集插件功能非常强大,只要你采集的页面不是Ajax的就可以使用插件自动采集和发布文章,为了防止被搜索引擎判断为低价值内容,采集时还可以替换链接、关键字,在页面前后插入一定的内容,形成“伪原创”。不过楚狂人一向认为建站内容最好还是要自主原创,分享这篇文章也不是为了鼓励大家去采集,但是这么好用的插件不试一下、不分享出来总感觉很可惜,大家可以自己酌情使用哦~