当前位置:文档之家› 虫虫软件文章采集和自动伪原创处理

虫虫软件文章采集和自动伪原创处理

虫软件客服吴(1216428847) 13:59:46大家下午好!我是客服小吴,今天很高兴与大家一起对虫虫软件文章采集和自动伪原创处理做个互动交流,往期我们麦络科技已经做为大家做了九期虫虫seo软件分享交流;今天是第十期,后期会继续与大家一起对虫虫软件和seo相关分享做互动交流,第十期具体有3个方面:一方面、虫虫软件新建文章采集三步;二方面、虫虫软件标题自动伪原创处理;三方面、虫虫软件正文伪原创处理;今天互动时间预计在2个小时,如果在以下讲到有疑问的,大家可以先做个笔记记录下问题,稍后讲完了,可以拿出来,大家一起分享下你的问题。

回复➹骑士(59321268) 14:00:09回复待定(1124303170) 14:00:20回复虫软件客服吴(1216428847) 14:01:12大家是红体字的改为其他颜色好方便大家看到我的字体回复商电(6514988) 14:01:47嗯,继续吧回复虫软件客服吴(1216428847) 14:01:55虫虫软件文章采集其实很简单,有的估计一听见需要写规则,就会联想到是不是要懂代码才可以写,这个想法是错误的;不懂代码也可以写虫虫软件采集规则的,其实我也不懂代码的,一般常规的自定义采集我都是按照使用教程里面的套路来的,今天我就为大家讲下怎么找到需要截取的部分,在进行虫虫软件常用的代码进行编写。

回复虫软件客服吴(1216428847) 14:03:01先和大家说下虫虫软件采集常用的几个代码:第一步,[page]是用来代替页码的;第二步,(.*?)这个是用来代替帖子的列表网址的,【第二步有的部分需要过滤的可以采用.*?】;第三步,(.*?)这个代替标题;[\s\S]*?这个是用来过滤标题和正文头部之间不需要的相关文字;([\s\S]*?)这个是代替正文内容的;简单说下第二步和第三步的代码,()带这个括号就是属于通配的形式,没有带()括号的就是属于过滤的形式。

回复待定(1124303170) 14:04:51回复虫软件客服吴(1216428847) 14:05:01以上基本规则都和大家说了,我今天就拿网易财经这个页面地址为大家讲解下,今天为什么要采用网易财经给大家讲虫虫软件采集了?其实这里面的内容基本半个小时就会更新一次,文章内容更新很快,稍后需要临时截图,估计到时截图需要些时间。

回复虫软件客服吴(1216428847) 14:05:31大家打开这个页面可以和我一起动手操作/special/00252G50/macroNew.html回复待定(1124303170) 14:06:07回复主讲-吴玄(1216428847) 14:06:25现在在把软件内容采集配置和管理页面打开,自己先新建一个采集规则,自己把采集规则的名字修改下,可以做个备注。

回复主讲-吴玄(1216428847) 14:06:31回复待定(1124303170) 14:07:31回复主讲-吴玄(1216428847) 14:07:36第一步,我相信大家基本都是会写的,但还是简单的讲下,[page]这个是代表页码的。

主讲-吴玄(1216428847) 14:08:211、大家打开文章列表页面的网址/special/00252G50/macroNew.html查看第一页网址和第一页网址有什么不同。

回复主讲-吴玄(1216428847) 14:08:47还有最后一页回复维他命(4446201) 14:09:03/special/00252G50/macroNew_[page].html回复主讲-吴玄(1216428847) 14:09:11对的是这样写的回复主讲-吴玄(1216428847) 14:09:52查看第一页网址和第一页:/special/00252G50/macroNew.html第二页:/special/00252G50/macroNew_02.html最后一页:/special/00252G50/macroNew_20.html第一页没有页码,从第二页才开始有页码,那第一步就需要写两个列表地址了。

回复主讲-吴玄(1216428847) 14:10:47/special/00252G50/macroNew.html/special/00252G50/macroNew_[page].html回复主讲-吴玄(1216428847) 14:11:05回复维他命(4446201) 14:11:24其实大部份的网站/special/00252G50/macroNew_01.html是可以访问的,只是这163的不让访问回复咨询(63046019) 14:11:44163比较重视安全回复待定(1124303170) 14:13:24就是像上面那样写啊?回复主讲-吴玄(1216428847) 14:13:44是的我截图的交谈中请勿轻信汇款、中奖信息、陌生电话,勿使用外挂软件。

待定(1124303170) 2011-9-23 14:13:24就是像上面那样写啊?主讲-吴玄(1216428847) 2011-9-23 14:13:44是的我截图的主讲-吴玄(1216428847) 14:14:473、现在就是设置页码了,一般是看你采集的最后一页有多少页面,大家可以去看看文章翻页的页面最后一个页面是多少。

打开点击,最后一页是20页,大家可以去设置下页码。

第一步是不是很简单啊!待定(1124303170) 14:15:32主讲-吴玄(1216428847) 14:15:47如果没有异议我们进行第二步了待定(1124303170) 14:16:03好的主讲-吴玄(1216428847) 14:16:11第二步,就是从文章列表页面提取列表网址,(.*?)这个是代表帖子的网址的。

1,大家还是打开这个页面/special/00252G50/macroNew.html维他命(4446201) 14:16:13这样写是表示一个单页加一个多页。

[page]表示通配符,通配符是指有多个的。

您如果有心的话也可以手动添加20个单页。

主讲-吴玄(1216428847) 14:17:02如果上面的不写第一页就采集不到了因为你点第二页在返回第一页网址还是不变的维他命(4446201) 14:17:36我潜水了。

你们好好学哦,解放双手啊这东西待定(1124303170) 14:17:40不写也没事是吧?维他命(4446201) 14:17:59不写是没事,少采一页主讲-吴玄(1216428847) 14:17:57不写只是第一页采集不到页码需要设置2到20了待定(1124303170) 14:18:09恩明白哦哦主讲-吴玄(1216428847) 14:18:21嗯大家还是打开这个页面/special/00252G50/macroNew.html 现在进行第二步主讲-吴玄(1216428847) 14:19:28以上是文章标题列表。

待定(1124303170) 14:20:46继续主讲-吴玄(1216428847) 14:20:502,大家先复制第一篇文章的标题,打开这个页面的源代码,查找文章列表地址,把第一篇文章的标题复制,进行查找。

主讲-吴玄(1216428847) 14:22:20待定(1124303170) 14:22:47找到主讲-吴玄(1216428847) 14:22:52大家只要找到标题部分就可以了,现在我们看看上面的截图,标题前面的就是我们需要截取的文章网址列表。

看看上下代码的标题列表的相似部分截取网址列表主讲-吴玄(1216428847) 14:24:13现在把列表地址代码提取出来,<li><spanclass="article"><ahref="/11/0823/18/7C5N0IS700253B0H.html">这个就是提取的(.*?)这个是代表帖子的网址的主讲-吴玄(1216428847) 14:26:04第二步的写法,<li><span class="article"><a href="(.*?)">维他命(4446201) 14:26:36请问这样写行不行<li><spanclass="article"><a href="(/[\s\S](.*?).html)">主讲-吴玄(1216428847) 14:27:10你这种[\s\S](.*?)代码我没有使用过维他命(4446201) 14:27:22主讲-吴玄(1216428847) 14:27:24一般常用的是(.*?)维他命(4446201) 14:27:53[\s\S] 这个不是栏目的通配符吗主讲-吴玄(1216428847) 14:27:51<li><spanclass="article"><a href="(/.*?.html)">也可以这样写维他命(4446201) 14:28:12你那样写好像不可以主讲-吴玄(1216428847) 14:28:18(.*?)这个代码是代表帖子网址的维他命(4446201) 14:28:31主讲-吴玄(1216428847) 14:28:31大家自己写下测试下看看是否可以匹配到列表维他命(4446201) 14:29:40可以的维他命(4446201) 14:32:22您接着主讲-吴玄(1216428847) 14:33:52第三步,抓取正文标题、正文开头和结尾部分。

(.*?)代替正文标题,[\s\S]*? 过滤代理,([\s\S]*?)代替正文内容。

1,大家先打开文章页面,复制标题,开启文章页面的源代码去查找文章前的标题。

/11/0826/14/7CD1DIIQ00252G50.html转身~!(1518821217) 14:35:48(.*?)能问下这里面的(). * ? 分别是什么意思吗?维他命(4446201) 14:36:12这个问题我纠结了。

主讲-吴玄(1216428847) 14:36:17代码我不是很懂你只要看组合就可以了维他命(4446201) 14:36:47这个必须是组合。

主讲-吴玄(1216428847) 14:36:54/11/0923/11/7EKP7C5Q00253B0H.html 大家打开这个页面转身~!(1518821217) 14:36:48但是不理解意思很难用啊1主讲-吴玄(1216428847) 14:37:12先和大家说下虫虫软件采集常用的几个代码:第一步,[page]是用来代替页码的;第二步,(.*?)这个是用来代替帖子的列表网址的,【第二步有的部分需要过滤的可以采用.*?】;第三步,(.*?)这个代替标题;[\s\S]*?这个是用来过滤标题和正文头部之间不需要的相关文字;([\s\S]*?)这个是代替正文内容的;简单说下第二步和第三步的代码,()带这个括号就是属于通配的形式,没有带()括号的就是属于过滤的形式。

相关主题