欢迎您访问我爱IT技术网,今天小编为你分享的电脑教程是建站经验系列之:【搜索引擎抓取网页原理学习笔记】,下面是详细的分享!
搜索引擎抓取网页原理学习笔记
做正规seo技术必会的搜索引擎抓取网页原理应该是很复杂的。可以写洋洋洒洒的长篇论文。这里就将我自己学习到的网页抓取原理记录一下。笔记应该不够完整只将重要过程做个介绍
首先抓取页面的工作需要分配个搜索引擎蜘蛛。也就是机器人了。每个搜索引擎都有大量的蜘蛛供其差遣。在如今这个信息更新极快得年代每个蜘蛛都不会闲着。搜索引擎给每只蜘蛛分配了大量网址。确保大家的工作不重复。每个网址有且只有固定的蜘蛛负责爬行
当蜘蛛领取了任务来到目标网站时候会有两种策略来爬行。分别为深度优先和广度优先
深度优先是一路走到底。发现一个链接就爬向它。好比下图的红色数字顺序。来到电脑页。看到第一个链接是台式电脑就进入台式机网页。该页第一个链接是戴尔台式机那么继续进入该网页。这时候戴尔台式机网页没了链接就返回到台式电脑页面去爬行第二个链接联想台式机
这样的爬行缺点是不能按照重要顺序来收录网页。台式电脑笔记本电脑平板电脑都属于栏目重要性和更新频率应该远大于戴尔台式机等等。因此需要优先爬行栏目。
所以广度优先成了搜索引擎收录的主要策略。即来到电脑首页后发现了三个连接,先将后两个链接存入工作任务表里,然后对第一个是台式机页收录内容。并将其中的子链接比如戴尔台式机和联想台式机地址记录下来也保存到工作计划表里计划过会来抓。
处理完台式机栏目接下来进入笔记本电脑页。同样抓取内容后将其中链接保持在计划表里。最后来到平板电脑页收录里面内容再将链接存入表里
将栏目页全部收录完毕后就从计划表里抽出之前存入的地址。这里是依次是戴尔台式机联想台式机。惠普笔记本华硕笔记本和ipad。以此类推
如下图蓝色数字顺序
当然对于大多数网站来说每个页面都有相同的头尾,就是用于显示栏目和友情链接的位置,因此大量页面头尾相同指向一样的链接就会被蜘蛛忽略,这时候正文中的链接将成为其记录和爬行的目标
当然收录后的网页已经不是完整的页面。而是将其中内容抽取去重复无意义词等等之后的高质量内容,然后再将这些筛选后的内容添加到分析系统得出文章关键词等等
您转载
以上所分享的是关于搜索引擎抓取网页原理学习笔记,下面是编辑为你推荐的有价值的用户互动:
相关问题:搜索引擎的抓取原理是怎样的-
答:有时从网址链接 到网站 然后抓取 有时是直接登陆一些服务器ip 抓取 最后将抓取的页面信息 也就是快照整理 存在百度自己的服务器上 快照是百度自己抓取的 点击跳转的链接是 该网页的url >>详细
相关问题:搜索引擎工作原理
答:搜索引擎的工作原理 全文搜索引擎的“网络机器人”或“网络蜘蛛”是一种网络上的软件,它遍历Web空间,能够扫描一定IP地址范围内的网站,并沿着网络上的链接从一个网页到另一个网页,从一个网站到另一个网站采集网页资料。它为保证采集的资料最新,... >>详细
相关问题:如何了解百度搜索引擎原理?
答:这样就能投其所好,更有利于提升网站排名。 百度搜索引擎的工作过程大概分为三个阶段。一..爬行和抓取 为了抓取网上尽量多的页面,搜素引擎蜘蛛会跟踪页面上的超链接,从一个页面爬到下一个页面。整个互联网是由相互链接的网站及页面组成的。从... >>详细
- 评论列表(网友评论仅供网友表达个人看法,并不表明本站同意其观点或证实其描述)
-
