尊旭网
当前位置: 尊旭网 > 知识 >

蜘蛛统计,蜘蛛有几种类型,

时间:2024-05-31 17:20:37 编辑:阿旭

1,蜘蛛有几种类型,

蜘蛛目分2个亚目:①中纺亚目有1科,共20余种;②后纺亚目(约107科,近4万种)。
其中,后纺亚目又分A:原蛛下目(约有14科1500余种);B: 新蛛下目(约有93科38000余种)。

  蜘蛛是许多农、林业害虫的天敌,在生物防治中起重要作用,保护和利用蜘蛛已成为生物防治的一项重要内容。蜘蛛可以入药,主治脱肛、疮肿、腋臭等症。少数蜘蛛如黑寡妇(间斑寇蛛和红斑寇蛛)的毒液对人畜有害。狼蛛科的穴居狼蛛分布于欧、亚两大洲,在中国新疆常见,其毒可致死人畜;有的蜘蛛毒素中有溶血酶,可使伤口组织局部坏死和溃烂,并向四周扩展。

  蜘蛛的种类数目繁多,自然界中蜘蛛有近四万种。这些蜘蛛大致可分为游猎蜘蛛、结网蜘蛛及洞穴蜘蛛三种。第一类会四处觅食,第二类则结网后守株待兔。而人们作为宠物饲养的大多是第三类:洞穴蜘蛛。它们喜欢躲在沙堆或洞里,在洞口结网,网本身没有黏性,纯粹用来感应猎物大小,并加以捕食。

真正的有毒蜘蛛有多少,尚无确切统计,世界上毒性较强的,有球腹蛛科的地中海黑寡妇蛛,甲蛛科的褐平甲蛛,天疣蛛科的澳洲漏斗蛛、栉足蛛科的黑腹栉足蛛、捕鸟蛛科的澳洲捕鸟蛛。据统计,美国在1959~1973年间有被Lathroclectustus螯伤1726个病例,死亡55人。线蛛属,捕鸟蛛属,咬伤的伤口较大而深,狼蛛属,园蛛属等咬伤则较轻。Phoneutria蛛的毒素很强,以20克小白鼠作试验,从静脉注射0.006毫克毒素,2~5小时内即出现死亡,雌性蛛的毒性要比雄性蛛的毒性强得多,雄性蛛不会给人以致死量的毒素。由于蜘蛛的毒性很强,在巴西,地中海东部,南斯拉夫等国,见蜘蛛都生畏。

  我国毒性较强的蜘蛛有以下几种:
  1.产于广西、云南、海南等地的捕鸟蛛。
  2.分布于上海、南京、北京、东北等地的红螯蛛。
  3.分布于新疆、陕北、河北、长春等地的穴居狼蛛。
  4.常见于台湾中南山地的赫毛长尾蛛。
  5.福建有关报道的黑寡妇蛛等。其中有两个蛛,我国学者研究过其毒性。

2,cnzz怎么查看百度蜘蛛

cnzz站长统计这个网站一般只是看流量情况,蜘蛛爬取信息需要通过网站日志分析,所以是无法查看的。
以下是查看方法:
1、每个网站在WEB服务器上运行都产生LOG日志文件;
2、通过查看LOG日志即可看到百度蜘蛛什么时候去过网站,看了哪些页面,读取过什么文件,包括CSS、网页、图片、JS等文件格式;
3、LOG文件获取方式,如果有服务器可以直接登录查看,打开IIS-网站-属性-日志文件存放的路径-日志文件名(xxxxx.log);
4、虚拟主机获取LOG日志文件,通过FTP连接后一般会有LOG文件夹,打开后便能获取;
5、找到LOG文件后,30兆以下的以记事本方式打开即可查看每行代码。大于30兆的文件以其他辅助软件进行打开,比如editplus等。
6、看到日志记录中有【120.122.38.118 - - [11/Nov/2015:04:28:29 +0800] "GET / HTTP/1.1" 200 61083 "-" "Baiduspider+(+http://www.baidu.com/search/spider.htm)】这种记录的,这就说明百度蜘蛛来过网站被LOG文件记录下来了

3,如何知道自己网站蜘蛛爬行的记录

现在的百度蜘蛛机器人决非以前的机器人了,貌似更聪明,爬行也更灵活多变,今天我们就用实例给大家谈谈。 一、爆发式爬行 不知百度蜘蛛是不是喜欢高效率的爬行,有时百度蜘蛛能在一两分钟内爬行几百次。比如我的站,天天基本上百度蜘蛛都会爆发式爬行几次,早上6点钟有一次大约爬行300次;上午9点钟的时候有一次也是爬行300多次;13点的时候也有一次,不过要少一点,只有200多次;18点的时候也有一次,大约会爬行400多次,23点的时候也有一次,大约只有250次。有时候,我查看具体爬行记录时,这些爆发式爬行基本上不会超过五分钟。有一次,我的站不知是哪个会事,百度蜘蛛在两分钟内爬行了1800多次,我当时就有点纳闷,百度蜘蛛机器人的运算速度可真是惊人。不过我现在基本上知是哪个会事了,由于蜘蛛机器人,它爬行一段时间过后,蜘蛛机器人在去运算程序,看是否是原来收录过的,是否是原创什么的,是否应该收录等等。 二、 确认式爬行 确认式爬行方式百度也是在9月底才开始试行,那么什么是确认式爬行呢,就是指你网站更新一个内容过后,百度第一次爬行过后,一定不会给你放出收录来,百度蜘蛛还要进行第二次爬行在运算、比较计算的,假如以为你这个更新内容有必要收录,百度蜘蛛会进行第三次爬行,正常情况下百度蜘蛛不会进行第四次爬行。第三次确认过后,百度蜘蛛就会慢慢的给你放出收录。 这种确认式爬行方式,就有点类似与谷歌的爬行方式。百度蜘蛛机器人爬行首页的方式还是同原来一样,一天不知要爬行多少次首页,其它页面,假如百度以为有必要进行计算的话,就会进行第二次确认爬行。比如我的站吧,我天天更新的内容,只要是百度蜘蛛机器人爬行了三次的,基本上都会放出收录来。爬行两次了的,都不会放出来。爬行四次的基本上没有看到过。 三、稳定式爬行 稳定式爬行,指的是天天24小时,每一个小时的爬行量相差不大。稳定式爬行往往是对新站才会出现,对于百度以为你站是成熟期的,假如出现了这种爬行方式,你可一定要小心了,这种爬行方式,你的站多半会被降权。第二天就能看出来,首页的快照日期,一定不会给你更新的。比如我的站pk586.com,每一个小时内的爬行量,从图表中看出来都相差无几。所以这个站的首页基本上不会出现24小时快照。

4,如何查看蜘蛛访问网站的记录

对于很多做网站的新手来说,都没有经过系统地授课进行网络技术和建站知识学习,做网站都是靠自学,遇到难题在论坛发帖提问,更不会懂得网站优化,对于较基本操作——通过网站日志看蜘蛛来访情况都不知到哪里看,怎么看。前两天看到很多人发帖提问,回复者的答案却比较精炼,不具体,提问者还是云里雾里的,现我就以自己的网站来系统地操作一次,提交给大家参考,有说错的地方,请批评指正。
1、打开FTP登录软件,我用的是FlashFXP,登录空间FTP

登录FTP后,你会发现根目录下有一个wwwlogs文件夹,(有的是weblog,注:不同的服务器空间生成的日志文件目录名称不一样,仅供参考,一般文件夹中包含Log字符的就是日志文件夹)。
2、打开wwwlogs文件夹后,里面有一些以日期格式特征为文件名的.gz后缀结尾的文件,这些就是我们需要下载到本地的日志文件。

3、下载到电脑桌面后,解压缩打开,里面是一个记事本格式的文件,打开文件,看到的是下图这样的代码,我下载的是3月7日的那个文件。


4、分析代码
上图1是百度蜘蛛的IP地址;
2是蜘蛛来访日期时间(2012年3月6日1时21分22秒),3月7日的日志文件记录的是从3月6日凌晨开始,至3月7日1时11分39秒整个时间段的n多次来访记录);
3是百度蜘蛛baiduspider
4是我网站被访问的网页地址;
5是sogou 搜狗蜘蛛的来访,同样也能看到时间和被访网页。
如果是简单的查看,您可以在记事本中搜索baiduspider ,如果想精确分析,可借助一些专用的分析软件。分析下哪些时间段百度蜘蛛来的最频繁,那么我们就在这个时间段更新我们的网站内容,很容易被百度收录的。
通过分析蜘蛛来访纪录,可以了解本站的大体情况,而不用再为百度不放出内页或者不收录的问题而苦恼了。
蜘蛛来访正常,可以确切的说,搜索引擎对你的站很友好的,坚持更新自己的网站,会有不错的收录的。
注:有些共享IP空间可能不支持日志功能,对于独立ip虚拟主机则提供每天的日志下载,而实在没有可以日志功能的空间可以参考使用蜘蛛爬行插件的一些方法进行分析。

5,十大世界上十大最多蜘蛛的地方

、最大的蜘蛛:亚马逊巨人食鸟蛛  亚马逊巨人食鸟蛛荣获“世界最大的蜘蛛”奖项应该是毫无争议的。对于蜘蛛类节肢动物来说,亚马逊巨人食鸟蛛的体型可以说用天文数字来描述。亚马逊巨人食鸟蛛又名哥利亚巨人食鸟蛛,主要生活于南美洲北部的雨林中,其体型最长可达12英寸(约30厘米),其中包括足部长度。雌性最高可生活25年,体重最高可达半磅重。亚马逊巨人食鸟蛛的名字就是来自于它的巨大体型,它们可以轻易捕食和吞咽鸟类、老鼠等小型动物。不过和其他类蜘蛛一样,亚马逊巨人食鸟蛛最喜欢吃的食物还是一些小昆虫,如蟋蟀或甲壳虫等。2、最小的蜘蛛:雄性“安娜彼斯图拉蜘蛛”  在蜘蛛类节肢动物中,关于体型最小的奖项一直存在争议。有人认为,生长于哥伦比亚的雄性“Patu digua”蜘蛛(音译为“帕图蜘蛛”)应该是全世界最小的蜘蛛,它们最长也只有0.015英寸(0.381 毫米),和一枚大头针的针头差不多最小。但是,还有比它们更小的种类,那就是生长于西非的雄性“Anapistula caecula”蜘蛛(音译“安娜彼斯图拉蜘蛛”)。雌性“安娜彼斯图拉蜘蛛”仅仅只有0.03英寸(约0.762 毫米),比“帕图蜘蛛”稍大,但是雄性“安娜彼斯图拉蜘蛛”则从来没有发现过。通常情况下,同一种类的蜘蛛雄性总是会雌性小得多,因此我们把最小蜘蛛的奖项颁给从未发现过的雄性“安娜彼斯图拉蜘蛛”。由于上述这些蜘蛛体型太小,没有人能够拍摄到它们的标准照。图片上的这只蜘蛛名叫“刺客蜘蛛”,它并不是最小的,它要比“帕图蜘蛛”或“安娜彼斯图拉蜘蛛”大一些,但也不超过八分之一英寸。“刺客蜘蛛”也可算得上世界上第三小蜘蛛,由它来代表雄性“安娜彼斯图拉蜘蛛”进入蜘蛛名人堂也可以理解的。3、最致命的蜘蛛:巴西漫游蜘蛛 长得真心丑 但遇上就哭瞎吧在所有蜘蛛种类中,巴西漫游蜘蛛应该是毒性最强、最致命的蜘蛛。2007年,吉尼斯世界记录授予巴西漫游蜘蛛“最毒蜘蛛”称号。巴西漫游蜘蛛发现于巴西、阿根廷北部和乌拉圭等国家或地区的温暖、潮湿环境中。它们可以释放出一种强力“神经毒素”,可以导致神经失控、呼吸困难和剧烈疼痛这种毒液对男性受害者的毒害效果尤其明显,它可以导致男性**数小时处于疼痛勃起状态,然后最终导致阳萎。科学家们近期已经开始研究如何利用这种毒素来治疗阳萎等性功能障碍疾病。4、最可爱的蜘蛛:蝇虎跳蛛蝇虎跳蛛共长有八只眼睛,其中头部正中两颗就是两盏大大的灯泡,大眼睛底下是两根亮闪闪的毒牙。这一可爱造型让蝇虎跳蛛荣获了“最可爱的蜘蛛”的称号。到目前为止,全世界已经识别出来的跳蛛种类共有5000多种。人们可以很容易根据它们头部和面部的八只眼睛来识别它们。蝇虎跳蛛之所以得到“跳蛛”的名字,就在于他们的特长是跳跃,它们一次跳出的距离甚至比它们身长的50倍还要长。5、最善良的蜘蛛:素食蜘蛛其实并非所有蜘蛛都是恶毒、冷血的食肉动物。在2009年初,科学家们发现,一种生活于南美洲灌木丛中的小型蜘蛛就是罕见的素食主义者。这种蜘蛛学名为“Bagheera kiplingi”,是迄今世界上4000多种已知蜘蛛物种中唯一食用植物的“素食主义者”。这种素食蜘蛛也是跳蛛的一种,它们擅长以智取胜强夺阿拉伯树胶蚁的食物。素食蜘蛛不像自己的其他同类那样以昆虫为食,它们通常过着群居生活,会盘踞到同一棵树上共同合作获取食物。在素食蜘蛛群体中,雄性也有照顾后代的责任。这种性别平等现象在蜘蛛类节肢动物中是非常罕见的。众所周知,许多种类的蜘蛛,在交尾后雌性蜘蛛会马上咬掉雄性蜘蛛的头部。基于素食蜘蛛的素食主义、群居生活和性别平等等善良特性,授予它们“最善良的蜘蛛”应该是理所当然。6、最卑鄙的蜘蛛:黑脚蚂蚁蜘蛛图中的这只蜘蛛看起来好象是蚂蚁,又好象是蜘蛛,又或者是“蜘蛛蚂蚁”。这种善于伪装、最具欺骗性的蜘蛛因此获得了“最卑鄙蜘蛛”的称号。当然,这一“荣誉”并不一定指是图上这只蜘蛛,而是指一个群体。大约有100多不同种类的蜘蛛都有这种特性,它们都懂得把自己伪装起来,看上去就像是一只蚂蚁。通过这种伪装就可以有效地逃避其他捕食者的威胁。事实上,许多种蜘蛛有都很强的模仿能力。比如,一种名为“Myrmarachne melanotarsa”黑脚蚂蚁蜘蛛不仅仅可以把自己装扮得很像蚂蚁,而且其行为也模仿得很像。虽然很多蜘蛛都喜欢独来独往,而这种黑脚蚂蚁蜘蛛却是喜欢群居生活,一张网上往往会挂上10到50只蜘蛛,搬家时也往往成群结队。科学家们认为,他们这样做法也是一种聪明的做法,因为许多捕食者都更愿意攻击独处的蚂蚁蜘蛛。7、最怪异的蜘蛛:圆形棘腹蛛我们把“最怪异的蜘蛛”奖项颁给了圆形棘腹蛛。图中这只背部长满棘刺的圆形蜘蛛就是一只棘腹蛛。在美国南部和南美洲的部分地区偶尔可以遇见这种棘腹蛛。人们可以根据其独特的身体形状和怪异的色彩标志来识别它们。一般来说,雌性圆球形棘腹蛛最大可以长到半英寸宽,而雄性身体宽度最大只能达到五分之一英寸。这一特别的蜘蛛种类看起来很怪异,因为他们白色的身体上分布着一排排黑色的斑点,看起来好象是在朝我们怪笑。在美国之外,其他种类的棘腹蛛也可能还有其他颜色。8、最虚荣的蜘蛛:孔雀蜘蛛孔雀蜘蛛获得了“最虚荣的蜘蛛”奖项。雄性孔雀蜘蛛往往会利用其艳丽的色彩和条纹来吸引异性,寻找女朋友。为了能够找到交尾对象,雄性孔雀蜘蛛会故意在雌性蜘蛛面前挠手弄姿,展示其美丽的腹部,并不断左右摇摆,就好象孔雀开屏一样。孔雀蜘蛛也是跳蛛的一种,它们的体型非常小,身体的直径不超过0.2英寸(约5 毫米)。这种喜欢卖弄风骚的蜘蛛一般只生活于澳大利亚中部地区。9、最适合当作宠物的蜘蛛:智利火玫瑰如果你想拥有一只蜘蛛作为宠物,你会选择那些巨型而致命的蜘蛛吗?肯定不会。据一些蜘蛛养育专家介绍,一种名为“智利火玫瑰”的蜘蛛就可以作为宠物来养。这种蜘蛛体型中等,魅力诱人,而且容易养活,最适合当作宠物。在许多宠物商量,都有这种蜘蛛出售,而且价格不贵。智利火玫瑰性情温顺,很少主动攻击别人,除非是它们感觉受到了威胁。10、最勤奋的蜘蛛金色圆蛛金色圆蛛可以称得上是世界上最勤奋的蜘蛛,这不仅仅是因为它们可以织出巨型、复杂的金黄色蛛网,而且它们每天都会在原有的蛛网上忙忙碌碌。由于它们织出的蛛网可能会随时失去粘性,因此它们每天都在不断地修补以保持蛛网处于最佳的捕捉状态。金色圆蛛所织出的网最大直径有3英尺长(约0.9米),看起来就像是一个巨大的车轮。它们的蛛丝强度往往令人难以置信,完全可以与钢丝或凯芙拉纤维的强度相比,甚至比钢比更有韧性,可以拉长两倍而不断。在阳光下,蛛丝呈现金黄色,而且还会闪闪发现。科学家们认为,这种光芒可以用来吸引昆虫。而在阴暗的角落里,蛛丝则呈现暗黄色,这样又可以用作伪装,防御敌人

6,世界最多蜘蛛

科学家们发现,一种生活于南美洲灌木丛中的小型蜘蛛就是罕见的素食主义者。这种蜘蛛学名为“Bagheerakiplingi”,是迄今世界上4000多种已知蜘蛛物种中唯一食用植物的“素食主义者”。这种素食蜘蛛也是跳蛛的一种,它们擅长以智取胜强夺阿拉伯树胶蚁的食物。素食蜘蛛不像自己的其他同类那样以昆虫为食,它们通常过着群居生活,会盘踞到同一棵树上共同合作获取食物。在素食蜘蛛群体中,雄性也有照顾后代的责任。这种性别平等现象在蜘蛛类节肢动物中是非常罕见的。众所周知,许多种类的蜘蛛,在交尾后雌性蜘蛛会马上咬掉雄性蜘蛛的头部。基于素食蜘蛛的素食主义、群居生活和性别平等等善良特性,授予它们“最善良的蜘蛛”应该是理所当然。

7,Web Spider网络蜘蛛,是什么意思?

[摘要]当“蜘蛛”程序出现时,现代意义上的搜索引擎才初露端倪。它实际上是一种电脑“机器人”(Computer Robot),电脑“机器人”是指某个能以人类无法达到的速度不间断地执行某项任务的软件程序。由于专门用于检索信息的“机器人”程序就象蜘蛛一样在网络间爬来爬去,反反复复,不知疲倦。所以,搜索引擎的“机器人”程序就被称为“蜘蛛”程序。

关键词:网络蜘蛛 起源 原理 优化

目录

什么是网络蜘蛛

网络蜘蛛的起源

网络蜘蛛的工作原理

正文开始

1、什么是网络蜘蛛

----什么是网络蜘蛛呢?网络蜘蛛即Web Spider,是一个很形象的名字。把互联网比喻成一个蜘蛛网,那么Spider就是在网上爬来爬去的蜘蛛。网络蜘蛛是通过网页的链接地址来寻找网页,从 网站某一个页面(通常是首页)开始,读取网页的内容,找到在网页中的其它链接地址,然后通过这些链接地址寻找下一个网页,这样一直循环下去,直到把这个网 站所有的网页都抓取完为止。如果把整个互联网当成一个网站,那么网络蜘蛛就可以用这个原理把互联网上所有的网页都抓取下来。

----这样看来,网络蜘蛛就是一个爬行程序,一个抓取网页的程序。

2、网络蜘蛛的起源

----要说网络蜘蛛的起源,我们还得从搜索引擎说起,什么是搜索引擎呢?搜索引擎的起源是什么,这和网络蜘蛛的起源密切相关。

----搜索引擎指自动从英特网搜集信息,经过一定整理以后,提供给用户进行查询的系统。英特网上的信息浩瀚万千,而且毫无秩序,所有的信息象汪洋上的一个个小岛,网页链接是这些小岛之间纵横交错的桥梁,而搜索引擎,则为你绘制一幅一目了然的信息地图,供你随时查阅。

----搜索引擎从1990年原型初显,到现在成为人们生活中必不可少的一部分,它经历了太多技术和观念的变革。
----十四年前1994年的一月份,第一个既可搜索又可浏览的分类目录EINetGalaxy上线了。在它之后才出现了雅虎,直至我们现在熟知的Google、百度。但是他们都不是第一个吃搜索引擎这个螃蟹的第一人。从搜索FTP上的文件开始,搜索引擎的原型就出现了,那时还未有万维网,当时人们先用手工后用蜘蛛程序搜索网页,但随着互联网的不断壮大,怎样能够搜集到的网页数量更多、时间更短成为了当时的难点和重点,成为人们研究的重点。

----搜索引擎原型初显

----如果要追溯的话,搜索引擎的历史比WorldWideWeb 还要长。早在Web出现之前,互联网上就已经存在许多旨在让人们共享的信息资源了。这些资源当时主要存在于各种允许匿名访问的FTP 站点。为了便于人们在分散的FTP资源中找到所需的东西,1990年,加拿大麦吉尔大学(McGillUniversity)的几个大学生开发了一个软件Archie。它是一个可搜索的FTP文件名列表,用户必须输入精确的文件名搜索,然后Archie会告诉用户哪一个FTP地址可以下载这个文件。Archie实际上是一个大型的数据库,再加上与这个大型数据库相关联的一套检索方法。Archie虽然还不是搜索引擎,但是从它的工作原理上看,它是所有搜索引擎的祖先。

----当万维网(WorldWideWeb)出现后,人们可以通过 html传播网页信息,网络上的信息开始成倍增长。人们纷纷使用各种方法将网络上的信息搜集来,进行分类、整理,以方便查找。现在人们很熟悉的网站雅虎(Yahoo)就是在这个环境下诞生的。还在Stanford大学读书的美籍华人杨致远和他的同学迷上了互联网。他们将互联网上有趣的网页搜集过来,与同学一起分享。后来,1994年4月,他们俩共同办了雅虎。随着访问量和收录链接数的增长,雅虎目录开始支持简单的数据库搜索。但是因为雅虎的数据是手工输入的,所以不能真正被归为搜索引擎,事实上只是一个可搜索的目录。

----当“蜘蛛”程序出现时,现代意义上的搜索引擎才初露端倪。它实际上是一种电脑“机器人”(Computer Robot),电脑“机器人”是指某个能以人类无法达到的速度不间断地执行某项任务的软件程序。由于专门用于检索信息的“机器人”程序就象蜘蛛一样在网络间爬来爬去,反反复复,不知疲倦。所以,搜索引擎的“机器人”程序就被称为“蜘蛛”程序。

----这种程序实际是利用html文档之间的链接关系,在Web上一个网页一个网页的爬取(crawl),将这些网页抓到系统来进行分析,并放入数据库中。第一个开发出“蜘蛛”程序的是Matthew Gray,他于1993年开发了World Wide Web Wanderer,它最初建立时是为了统计互联网上的服务器数量,到后来发展到能够捕获网址。现代搜索引擎的思路就来源于Wanderer,后来很多人在此基础上对蜘蛛程序进行了改进。

----1994年7月20日发布的Lycos网站第一个将 “蜘蛛”程序接入到其索引程序中。引入“蜘蛛”后给其带来的最大优势就在于其远胜于其它搜索引擎的数据量。自此之后几乎所有占据主导地位的搜索引擎中,都靠“蜘蛛”来搜集网页信息。Infoseek是另一个重要的搜索引擎,于1994年年底才与公众见面。起初,Infoseek只是一个不起眼的搜索引擎,它沿袭Yahoo!和Lycos的概念,并没有什么独特的革新。但是它友善的用户界面、大量附加服务使它在用户中赢得了口碑。1995年12月,它与Netscape的战略性协议,使它成为一个强势搜索引擎:当用户点击Netscape浏览器上的搜索按钮时,弹出Infoseek的搜索服务,而此前由Yahoo!提供该服务。 1995年12月15日,Alta Vista正式上线。它是第一个支持高级搜索语法的搜索引擎,成功地整合了此前人类所有的信息检索技术,解决了包括字根处理、关键词检索、布尔逻辑,以及通过向量空间模型的查询排名等关键问题。正式公开之前,Alta Vista就已经拥有20万访问用户,在短短三个星期之内,到访人数由每天30万次增加到200万次。它的成功在于满足了用户三个方面的需求:网上索引范围超过了此前任何一家搜索引擎;短短几秒钟内便可从庞大的数据库中为用户返回搜索结果;Alta Vista小组从一开始就采用了一种模块设计技术,能够跟踪网站的流行趋势,同时不断扩大处理能力。在当时许多搜索引擎之中,Alta Vista脱颖而出,成为网络搜索的代名词。Google就是站在这样的巨人的肩膀上颠覆并创造着。“上网即搜索” 改变了人们上网方式的,就是现在鼎鼎大名的Google。Google并不是搜索引擎的发明者,甚至有点落后,但是它却让人们爱上了搜索。

----1998年9月,在佩奇和布林创建Google之时,业界对互联网搜索功能的理解是:某个关键词在一个文档中出现的频率越高,该文档在搜索结果中的排列位置就要越显著。这就引出了这样一个问题,如果一个页面充斥着某一个关键字的话,那么它将排在很显著的位置,但这样一个页面对于用户来说,却没有任何意义。佩奇和布林发明了“网页级别”(PageRank)技术,来排列搜索结果。即考察该页面在网上被链接的频率和重要性来排列,互联网上指向这一页面的重要网站越多,该页面的位次也就越高。当从网页A链接到网页B时,Google 就认为“网页A投了网页B一票”。Google根据网页的得票数评定其重要性。然而,除了考虑网页得票数的纯数量之外,Google还要分析投票的网页,“重要”的网页所投出的票就会有更高的权重,并且有助于提高其他网页的“重要性”。 Google以其复杂而全自动的搜索方法排除了任何人为因素对搜索结果的影响。没人能花钱买到更高的网页级别,从而保证了网页排名的客观公正。除此之外,动态摘要、网页快照、多文档格式支持、地图股票词典寻人等集成搜索也都深得网民的喜爱。其他众多搜索引擎也都紧跟Google,推出这些服务。Fast(Alltheweb)公司发布的搜索引擎AllTheWeb,总部位于挪威,其在海外的风头直逼Google。Alltheweb的网页搜索支持Flash和pdf搜索,支持多语言搜索,还提供新闻搜索、图像搜索、视频、MP3、和FTP搜索,拥有极其强大的高级搜索功能。而中国的百度更是凭借“更懂中文”而吸引着中国的网络受众,它拥有超过10亿的中文网页数据库,并且,这些网页的数量每天正以千万级的速度在增长。

----搜索引擎越来越成为人们生活中重要的一部分,找资料、查地图、听音乐,只有想不到的,没有搜索不到的。
----搜索引擎的三个基本原理

----1.利用蜘蛛系统程序,自动访问互联网,并沿着任何网页中的所有URL爬到其它网页,重复这过程,并把爬过的所有网页收集回来。

----2.由分析索引系统程序对收集回来的网页进行分析,提取相关网页信息,根据一定的相关度算法进行大量复杂计算,得到每一个网页针对页面内容中及超链中每一个关键词的相关度(或重要性),然后用这些相关信息建立网页索引数据库。

----3.当用户输入关键词搜索后,由搜索系统程序从网页索引数据库中找到符合该关键词的所有相关网页。相关度数值排序,相关度越高,排名越靠前。最后,由页面生成系统将搜索结果的链接地址和页面内容摘要等内容组织起来返回给用户。

----说到这里,你可能对搜索引擎和网络蜘蛛有了一个初步的了解了吧!
3、网络蜘蛛的工作原理

----对于搜索引擎来说,要抓取互联网上所有的网页几乎是不可能的,从目前公布的数据来看,容量最大的搜索引擎也不过是抓取了整个网页数量的百分之四十左右。这 其中的原因一方面是抓取技术的瓶颈,无法遍历所有的网页,有许多网页无法从其它网页的链接中找到;另一个原因是存储技术和处理技术的问题,如果按照每个页 面的平均大小为20K计算(包含图片),100亿网页的容量是100×2000G字节,即使能够存储,下载也存在问题(按照一台机器每秒下载20K计算, 需要340台机器不停的下载一年时间,才能把所有网页下载完毕)。同时,由于数据量太大,在提供搜索时也会有效率方面的影响。因此,许多搜索引擎的网络蜘 蛛只是抓取那些重要的网页,而在抓取的时候评价重要性主要的依据是某个网页的链接深度。

----在抓取网页的时候,网络蜘蛛一般有两种策略:广度优先和深度优先(如下图所示)。

----广度优先是指网络蜘蛛会先抓取起始网页中链接的所有网页,然后再选择其中 的一个链接网页,继续抓取在此网页中链接的所有网页。这是最常用的方式,因为这个方法可以让网络蜘蛛并行处理,提高其抓取速度。深度优先是指网络蜘蛛会从 起始页开始,一个链接一个链接跟踪下去,处理完这条线路之后再转入下一个起始页,继续跟踪链接。这个方法有个优点是网络蜘蛛在设计的时候比较容易。两种策 略的区别,下图的说明会更加明确。






----由于不可能抓取所有的网页,有些网络蜘蛛对一些不太重要的网站,设置了访问的层数。例如,在上图中,A为起始网页,属于0层,B、C、D、E、F属于第1 层,G、H属于第2层,I属于第3层。如果网络蜘蛛设置的访问层数为2的话,网页I是不会被访问到的。这也让有些网站上一部分网页能够在搜索引擎上搜索 到,另外一部分不能被搜索到。对于网站设计者来说,扁平化的网站结构设计有助于搜索引擎抓取其更多的网页。
----网络蜘蛛在访问网站网页的时候,经常会遇到加密数据和网页权限的问题,有些网页是需要会员权限才能访问。当然,网站的所有者可以通过协议让网络蜘蛛不去抓 取(下小节会介绍),但对于一些出售报告的网站,他们希望搜索引擎能搜索到他们的报告,但又不能完全免费的让搜索者查看,这样就需要给网络蜘蛛提供相应的 用户名和密码。网络蜘蛛可以通过所给的权限对这些网页进行网页抓取,从而提供搜索。而当搜索者点击查看该网页的时候,同样需要搜索者提供相应的权限验证。

----每个网络蜘蛛都有自己的名字,在抓取网页的时候,都会向网站标明自己的身份。网络蜘蛛在抓取网页的时候会发送一个请求,这个请求中就有一个字段为User -agent,用于标识此网络蜘蛛的身份。例如Google网络蜘蛛的标识为GoogleBot,Baidu网络蜘蛛的标识为BaiDuSpider, Yahoo网络蜘蛛的标识为Inktomi Slurp。如果在网站上有访问日志记录,网站管理员就能知道,哪些搜索引擎的网络蜘蛛过来过,什么时候过来的,以及读了多少数据等等。如果网站管理员发 现某个蜘蛛有问题,就通过其标识来和其所有者联系。

----网络蜘蛛进入一个网站,一般会访问一个特殊的文本文件Robots.txt,这个文件一般放在网站服务器的根目录下,如:[url][/url]。 网站管理员可以通过robots.txt来定义哪些目录网络蜘蛛不能访问,或者哪些目录对于某些特定的网络蜘蛛不能访问。例如有些网站的可执行文件目录和 临时文件目录不希望被搜索引擎搜索到,那么网站管理员就可以把这些目录定义为拒绝访问目录。Robots.txt语法很简单,例如如果对目录没有任何限 制,可以用以下两行来描述: User-agent: *
Disallow:

----当然,Robots.txt只是一个协议,如果网络蜘蛛的设计者不遵循这个协议,网站管理员也无法阻止网络蜘蛛对于某些页面的访问,但一般的网络蜘蛛都会遵循这些协议,而且网站管理员还可以通过其它方式来拒绝网络蜘蛛对某些网页的抓取。

---- 网络蜘蛛在下载网页的时候,会去识别网页的HTML代码,在其代码的部分,会有META标识。通过这些标识,可以告诉网络蜘蛛本网页是否需要被抓取,还可 以告诉网络蜘蛛本网页中的链接是否需要被继续跟踪。例如:表示本网页不需要被抓取,但是网页内的链接需要被跟踪。

---- 搜索引擎建立网页索引,处理的对象是文本文件。对于网络蜘蛛来说,抓取下来网页包括各种格式,包括html、图片、doc、pdf、多媒体、动态网页及其 它格式等。这些文件抓取下来后,需要把这些文件中的文本信息提取出来。准确提取这些文档的信息,一方面对搜索引擎的搜索准确性有重要作用,另一方面对于网 络蜘蛛正确跟踪其它链接有一定影响。对于doc、pdf等文档,这种由专业厂商提供的软件生成的文档,厂商都会提供相应的文本提取接口。网络蜘蛛只需要调用这些插件的接口,就可以轻松的提取文档中的文本信息和文件其它相关的信息。但HTML等文档不一样,HTML有一套自己的语法,通过不同的命令标识符来表示不同的字体、颜色、位置等版式,如:、、等, 提取文本信息时需要把这些标识符都过滤掉。过滤标识符并非难事,因为这些标识符都有一定的规则,只要按照不同的标识符取得相应的信息即可。但在识别这些信 息的时候,需要同步记录许多版式信息,例如文字的字体大小、是否是标题、是否是加粗显示、是否是页面的关键词等,这些信息有助于计算单词在网页中的重要程 度。同时,对于HTML网页来说,除了标题和正文以外,会有许多广告链接以及公共的频道链接,这些链接和文本正文一点关系也没有,在提取网页内容的时候, 也需要过滤这些无用的链接。例如某个网站有“产品介绍”频道,因为导航条在网站内每个网页都有,若不过滤导航条链接,在搜索“产品介绍”的时候,则网站内 每个网页都会搜索到,无疑会带来大量垃圾信息。过滤这些无效链接需要统计大量的网页结构规律,抽取一些共性,统一过滤;对于一些重要而结果特殊的网站,还 需要个别处理。这就需要网络蜘蛛的设计有一定的扩展性。

---- 对于多媒体、图片等文件,一般是通过链接的锚文本(即,链接文本)和相关的文件注释来判断这些文件的内容。例如有一个链接文字为“张曼玉照片”,其链接指 向一张bmp格式的图片,那么网络蜘蛛就知道这张图片的内容是“张曼玉的照片”。这样,在搜索“张曼玉”和“照片”的时候都能让搜索引擎找到这张图片。另 外,许多多媒体文件中有文件属性,考虑这些属性也可以更好的了解文件的内容。

---- 动态网页一直是网络蜘蛛面临的难题。所谓动态网页,是相对于静态网页而言,是由程序自动生成的页面,这样的好处是可以快速统一更改网页风格,也可以减少网 页所占服务器的空间,但同样给网络蜘蛛的抓取带来一些麻烦。由于开发语言不断的增多,动态网页的类型也越来越多,如:asp、jsp、php等。这些类型 的网页对于网络蜘蛛来说,可能还稍微容易一些。网络蜘蛛比较难于处理的是一些脚本语言(如VBScript和JavaScript)生成的网页,如果要完 善的处理好这些网页,网络蜘蛛需要有自己的脚本解释程序。对于许多数据是放在数据库的网站,需要通过本网站的数据库搜索才能获得信息,这些给网络蜘蛛的抓 取带来很大的困难。对于这类网站,如果网站设计者希望这些数据能被搜索引擎搜索,则需要提供一种可以遍历整个数据库内容的方法。

对于网页内容的提取,一直是网络蜘蛛中重要的技术。整个系统一般采用插件的形式,通过一个插件管理服务程序,遇到不同格式的网页采用不同的插件处理。这种 方式的好处在于扩充性好,以后每发现一种新的类型,就可以把其处理方式做成一个插件补充到插件管理服务程序之中。

---- 由于网站的内容经常在变化,因此网络蜘蛛也需不断的更新其抓取网页的内容,这就需要网络蜘蛛按照一定的周期去扫描网站,查看哪些页面是需要更新的页面,哪些页面是新增页面,哪些页面是已经过期的死链接。

---- 搜索引擎的更新周期对搜索引擎搜索的查全率有很大影响。如果更新周期太长,则总会有一部分新生成的网页搜索不到;周期过短,技术实现会有一定难度,而且会 对带宽、服务器的资源都有浪费。搜索引擎的网络蜘蛛并不是所有的网站都采用同一个周期进行更新,对于一些重要的更新量大的网站,更新的周期短,如有些新闻 网站,几个小时就更新一次;相反对于一些不重要的网站,更新的周期就长,可能一两个月才更新一次。

---- 一般来说,网络蜘蛛在更新网站内容的时候,不用把网站网页重新抓取一遍,对于大部分的网页,只需要判断网页的属性(主要是日期),把得到的属性和上次抓取的属性相比较,如果一样则不用更新。

---- 现在大家对网络蜘蛛的工作原理有了初步的了解了吧,了解后就要在以后的网站制作中考虑蜘蛛的爬行规律,比如制作网站地图就很重要,好了,如果你有更好的见解,请到这里发表,火鸟非常愿意与你交流,共同研究网站制作技巧,尽量将自己的网站制作的符合标准,符合用户的习惯!

8,什么是网络蜘蛛?

网络蜘蛛即Web Spider,是一个很形象的名字。把互联网比喻成一个蜘蛛网,那么Spider就是在网上爬来爬去的蜘蛛。网络蜘蛛是通过网页的链接地址来寻找网页,从 网站某一个页面(通常是首页)开始,读取网页的内容,找到在网页中的其它链接地址,然后通过这些链接地址寻找下一个网页,这样一直循环下去,直到把这个网 站所有的网页都抓取完为止。如果把整个互联网当成一个网站,那么网络蜘蛛就可以用这个原理把互联网上所有的网页都抓取下来。


——这样看来,网络蜘蛛就是一个爬行程序,一个抓取网页的程序。

最新内容