当前位置:文档之家› 火车头操作手册-Mg

火车头操作手册-Mg

火车头操作手册目录前言 (1)摘要 (2)第一章基础知识 (3)1.1 HTML 基础知识 (3)1.2 采集基础知识 (5)1.3发布基础知识 (5)1.4正则基础知识 (7)第二章火车头采集篇 (11)2.1 什么是信息采集? (11)2.2 火车头采集器的采集工作流程 (11)2.3 数据的转储 (20)第三章火车头发布篇 (24)3.1火车头发布内容的介绍 (24)3.2 接口文件的介绍.................................................................... 错误!未定义书签。

3.3 发布模块的制作 (26)第四章应用进阶 (38)4.1 火车头+PHP程序 (38)第五章防采技术介绍 (40)5.1 采集器与搜索引擎蜘蛛的区别 (40)5.2 防采集的一些主要措施 (40)5.3 火车头官方谈采集与防采 (42)5.3.1、谈火车头采集器的由来 (42)前言随着公司的日益壮大,产品线的不断拓宽,我们SEM团队也正在快速扩张,同时也带来了一系列问题,比如:团队成员的相互学习与交流,新员工的快速融入问题等。

因此员工学习手册的编写,势在必行。

员工学习手册,是团队成员技术,经验的总结,大家通过学习其他人的工作经验、技术,提高自己,同时团队实习也得到了提升。

而对于新入职的员工,根据前人的总结,经验,可以少走很多弯路,能够帮助他们快速融入集体,使得新人的适应期可以大大缩短,提高了新人培训效率。

在员工学习手册的编写过程中,我与沙亚金参与了《玩转“火车头”》的编写,里面是我们的一些使用火车头的一些心得,和技巧。

希望能够在信息采集,发布这块对大家有所帮助,由于时间,经验等因素,写的过程中也存在许多缺陷,欢迎大家与我们交流,批评指正。

在这里我们要感谢吉总,是他为大家带来了“火车头”。

摘要在这信息大爆炸的时代里,什么最重要?当然是信息。

对于“内容为王”的SEOer来说信息更是无价之宝。

强大的信息资源,可以让我们在SE中处于霸主地位。

说到这里,不禁要问,我们的信息从何而来?我们应该如何处理这些信息?本文将详细介绍,如何采集一个站点,如何转储这些信息,如何在另一个站点发布这些信息,如何防采集,等等。

文章以介绍火车头采集,发布为例。

共分六个部分,基础知识(准备知识),采集部分(包括信息的采集,采集后的信息转储),发布部分(信息的发布),进阶部分(整套实战操作),防采技术,以及附录。

基础知识:该部分对采集、发布所使用到的一些必要知识进行介绍,其中包括HTML 代码的认知,正则表达式,PHP语言(也可以是其网页编辑语言)等。

采集部分:采集分为三小块,一是地址的采集,二是内容的采集,三是数据转储。

分别对采集各部分作详细的介绍。

发布部分:详细介绍发布模块及其制作过程,以及接口模块的介绍。

进阶部分:以Wordpress博客文章发布为实战实例,详细介绍如何向某一博客一次性发布N篇日志,并让该日志以每天M篇的速度自动释放。

防采部分:我们既然能采别人站,那别人也会采我们。

所以我们也要提高防采意识。

在这一部分里,将介绍建站时的一些防采技术。

附录:主要罗列一些火车头辅助工具的下载地址,以及一些火车头论坛。

全文以实例为主,建议大家在看完文章以后,再看一下我们制作的视屏教程,同时跟着视屏,自己动手操作采集一个站点,以加深印象。

第一章基础知识1.1 HTML 基础知识『<form>元素』使用<form>,以及在其间嵌入相关的元素(或称为控件),就可以创建HTML文档一部分的表单。

表单的基本语法:<form method="[get | post]" action="[url]">......</form>【method属性】用于指定向服务器发送表单数据时所用的HTTP方法,可以是get或者post这两只用方法中的一种,get是缺省的方法。

当采用get方法提交表单时,提交的数据被附加到url(在属性action中指定)的末端,作为url的一部分发送到服务器端。

例如:指定action="reg.asp",提交表单后,在浏览器的地址栏中,我们会看到如下信息http://localhost/register.php?user=zhangsan&pwd=123456而post方法是将表单中的信息作为一个数据块发送到服务器。

无论采用哪一种方法,数据的编码都是相同的,格式为name1=value1&name2=value2 。

【属性action】指定对表单进行处理的脚本地址。

也就是表单提交到服务器后,交由谁来处理,在action 属性中指定处理者的url 。

『元素<input>』<input>元素用于接受用户输入的信息,是一个带有属性的空元素,用来创建表单中的控件,语法如下:<input type="type" name="name" size="size" value="value">【type属性】用来指定要创建的控件类型,属性name用来指定控件的名称,处理表单的服务器端脚本可以获得以名称-值对所有表示的表单数据,利用名称,可以获取对应的值。

name属性在表单中并不显示。

属性size用来指定表单控件的初始宽度。

属性value指定控件的初始值。

单行文本输入控件type="text"提交按钮type="submit"重置按钮type="reset"口令输入控件type="password"单选按钮type="radio"复选框type="checkbox"隐藏控件type="hidden"『元素<select>』列表框允许用户从一个下拉列表框(下拉菜单)中选择一项或者多项,其功能和单选按钮或者复选框的功能相同,但是显示的方式不一样。

列表框中的各个选项用<option>元素提供。

『元素<textarea>』如果想让用户在填写信息的时候,输入他的个人简历等信息,那么单行文本控件就不合适,对于接受多行信息的情况下,可以使用多行文本输入控件,它可以容纳较多的信息。

语法:<textarea name="name" rows="n" cols="n">....</textarea>在开始结束标签之间出现的文本,将作为文本输入控件中的初始文本显示。

【属性rows】指定文本输入控件可视区域显示的文本行数.【属性cols】用于指定文本输入控件可视区域显示的宽度。

示例:<form method="get" action="reg.asp">用户名:<input type="text" name="user" size="20" value="游客">密码:<input type="password" name="pwd" size="20">性别:<input type="radio" name="sex" value="1" checked>男<input type="radio" name="sex" value="0">女<br>爱好:<input type="checkbox" name="intersest" value="football">足球<input type="checkbox" name="intersest" value="basketball">篮球<input type="checkbox" name="intersest" value="swimming">游泳<br> 学历:<select size="1" name="education"><option value="" selected>...</option><option value="高中" >高中</option><option value="本科" >本科</option><option value="研究生" >研究生</option></select><br>个人简介:<textarea name="personal" rows="5" cols="30">个人简介</textarea><br> <input type="hidden" name="id" value="1"><input type="reset" value="重设"><input type="submit" value="提交"></form>1.2 采集基础知识当我们浏览一个网站的页面的时候,其实是通过浏览器来解释从网站服务器返回的一段HTML代码,而当我们需要这个页面的内容时,我们只需要得到这个页面的HTML源代码,然后从这些HTML代码中取出我们需要的内容。

举个例子:/ ,如果我们对这个站点的内容比较喜欢,想转载到自己的BLOG上面,第一个方法就是手动复制,粘贴,修改。

相关主题