巴郎SEO:《大头娃父子的故事》告诉你搜索引擎的工作原理

点击上方蓝字@巴郎刊关注这是巴郎刊的第018篇文章作者|巴郎 编辑|巴郎来源|巴郎刊(ID:balangk)转载请联系授权(微信ID:g0013g)
前言
正式入门SEO的第一堂课,便是详细地了解搜索引擎的工作原理。搜索引擎的工作原理是绿帽SEO与白帽SEO和搜索引擎相处的基石。优化我们的网站之前,必然要先了解搜索引擎的工作原理。
01
搜索引擎的工作流程
目前全球最大的三款核心搜索引擎是:美国的Google(谷歌)与Bing(必应)、中国的百度。
毋庸置疑,在搜索引擎行业,谷歌是全球的老大,Bing老二,百度与雅虎并列第三,虽然百度在全球市场的占有率略微低于第三名的雅虎,但是百度有自己的核心搜索引擎技术,并且在中文搜索引擎领域它是王者,所以与雅虎并列第三。
无论哪一款搜索引擎,基本上都是基于搜索引擎最基本的工作流程框架之上进行运作的,其余工作的部分因技术不同而大同小异,但其本质原理所有的搜索引擎都是一致的。
所有的搜索引擎的核心工作流程只有4步,分别是:1.抓取 2.索引 3.分析 4展出那么,今天巴郎就以百度搜引擎为范例进行详细地系统讲解。
《搜索引擎工作原理》思维导图
为了更好的让大家形象具体的理解,巴郎将一些名词术语在开篇前就做一个比较生动形象的拟人化比喻,文中就不在注释了,这样有助于你直白形象的了解搜索引擎的工作原理。
百度蜘蛛(Baiduspider)
中文名:百度蜘蛛
英文名:Baiduspider
巴郎拟人化:大头娃
我把百度蜘蛛叫大头娃。一个有千里眼顺风耳的大头娃娃,它的眼睛和耳朵以及嗅觉是非常灵敏的,而且还有筋斗云,一个跟斗就是N万里。
它是由百度的技术部门研发的一套抓爬技术,它一旦进入网站,就会对网站的所有数据和信息进行抓取,百度将这套技术的完整体称作:百度蜘蛛。
当然我们也可以人性化的把它比作一个有生命的,活泼可爱的大头娃娃。这个大头娃娃特别贪玩,特别好动,还特别能吃,总之很调皮,但心地善良。所以最好不要讨厌它,你要哄它,逗它开心,要对它极度友好才可以。
这样,它回家以后,就会在百度爸爸那里替你美言几句,让你的网站的抓取与收录会更好一点。
百度搜索引擎
百度爸爸,大头娃的亲爹
巴郎拟人化:爸爸
TDK
T:T是title的缩写,中文意思:标题,即网页的标题
D:D是description的缩写,文中意思:描述,描绘,即网页的描述,说明这个网页是干什么的。
K:K是keywords的缩写,中文意思:关键词,即网页的关键词,关键词是用来定位这个网页的核心内容是什么,这个网页内的所有内容都必须围绕这个关键词来写内容和创作。
URL
中文名:统一资源定位系统
英文名:uniform resource locator,简称:URL,是三个英文单词的缩写。
定 义:互联网上的任何一个页面在万维网服务程序上用于指定信息位置的表示方法。
比如,你要进入网易云音乐,怎么进入呢?在百度浏览器上输入 https://music.163.com/ 这个地址具有唯一性,我们只能通过地址才能进入网易云音乐官网,用这种方式来表达一个网站在互联网上的具体位置,就叫做URL。
网易云音乐首页TDK
ALT属性
中文名:替换,替代
英文名:Alter
定 义:图片代替文字来显示告诉用户这张图是什么,提升用户体验。同时用代码告诉百度蜘蛛,这是一张图片,图片的名字由被它替换的中文来命名。
百度搜索引擎的工作原理很简单,一共6个点:1.抓取传送 2.筛选页面 3.建库索引 4.分析评分 5.展出排名 6.监控排名(马拉松赛跑)
好,下面大家跟巴郎一起去看看大头娃父子俩是如何运用这6个点为全网服务的。
02
抓取传送
百度搜索引擎的抓取我们网站主要靠三种方式
1.百度蜘蛛自动抓取
2.手动提交
3.代码自动提交
下面一则小故事告诉你这三种方式是如何体现的。
每天都有很多新网站上线,一旦上线。大头娃就会收到顺风耳的提示
顺风耳:大头娃快起床,别睡啦,有新网站上线啦,快去瞅瞅。
大头娃:千里眼,你去看一下,要真上线了,你喊我。
千里眼:大头娃。确实上线了,我们一起出发去瞅瞅。
爸 爸:快去看看有没有好玩的,有价值的东西,赶紧给我带回来!
大头娃:好嘞。
不一会儿功夫,大头娃就回来了,大包,小包拎了一大堆东西回来。
爸 爸:哟!收获不错嘛,辛苦你了,儿子。
大头娃:小菜一碟。
不一会热,有人敲门
快递员:这是大头娃的家吗?我是新网站的快递员,我们网站是做童装的,站长特意叫我送一件给大头娃。
爸 爸:哎哟!这怎么好意思呢?
快递员:您一定要收下,以后还要承蒙您多多关照。
爸 爸:哎!让您破费了,还特地跑一趟过来。
快递员:哪里!哪里!应该的,应该的,只要大头娃喜欢就好。
大头娃:步远万里跑过来,太辛苦了,不如留个传真给你吧,以后直接用传真传给我就好了,不用你自己跑过来。
快递员:大头娃想的真周到。我留给你。
于是父子俩请快递员吃了个便饭,快递员记下传真就拜辞了。
说明
1.大头娃一旦发现有新的数据信息出现,不管是老站更新,还是新站上线,它会以很快的速度精准找到你的网站,然后将你网站的所有数据和信息直接打包带回家给它爸爸,这个过程称之为:百度蜘蛛自动抓取。
2.快递员送礼,是把自己网站的信息数据主动提交给爸爸,而没有让大头娃直接抓取,这个过程叫做手动提交网站信息数据。目的是告诉爸爸,我们网站上线了,你留意下,记得以后让大头娃常来逛。
3.大头娃给快递员留传真号码,这个传真号码是百度搜索引擎的提交代码,一般放在网站首页的底部,一旦你的网站有更新,那么更新的数据就自动传到大头娃的手里。大头娃在交给爸爸。这个过程叫做:代码自动提交
以上这则小故事就生动说明了抓取网站的三种方式
1.百度蜘蛛自动抓取 2.手动提交3.代码自动提交
巴郎提示
这里不管是百度自动抓取,还是我们引用代码自动提交,巴郎都建议,自己手动提交是最好的。手动提交打开ziyuan.baidu.comr然后去手动提交
巴郎手动提交巴郎小站的文章页链接
03
筛选页面
当百度蜘蛛把抓取的数据信息带回来以后,百度搜索引擎会对带回来的信息数据进行筛选,对于一些灰色产业,黄赌毒,还有特殊词汇信息和数据直接进行屏蔽。而优质的页面,有信誉的网站,有威望的网站则直接进入下一环节。
快递员走了以后,爸爸叫来大头娃
爸爸:儿子,爹爹要做一个的广告策划,你自己把这些包裹里的服装按照生产日期,生产厂商,质量材质,尺寸大小都分类好。
大头娃:好的哟!
第二天爸爸看到大头娃分类的童装,急忙叫醒大头娃。
爸爸:你分类的服装怎么分成这样。很多都错了。
爸爸:黄色这件连衣裙生产厂商是:黄色商家生产的,这件不能要。
蓝色那件羽绒服是:赌厂家生产的,不能要。黑色那件童装是:毒商家生产的,更不能要。
还有啊,你现在身上穿的这件小童装印有军工厂的字样,这是盗版字样,赶紧脱下来,也不能要。
大头娃:我只觉得这些挺好看的,所以就分出来了,那还有一大堆呢,哪一件可以要啊?
爸爸:要我不在家里,你这娃要把咱家招牌都给砸没了。那一堆都没问题。
紫色那堆牛仔裤是:唯品会商家生产的,款型不错。可以要。
褐色那堆衬衫是:天猫商家生产的,质量有保证。可以要。
白色那堆风衣是:京东商家生产的,信誉有保证。可以要。
灰色那堆商务裤:淘宝厂家生产的,这厂家假货最多,我拿一件撕给你看。
于是爸爸拿起一件,稍微一用力,裤子就支离破碎了。于是又拿了另外三个商家的服装作对比,确没有撕烂。
爸爸:儿子!看到了吗。上面三个都是咱们家祖上长期合作的对象,我们还是世交,质量材质都是很有保证的,不需要审核。看到淘宝商家字样的,直接拿去烧掉,知道了吗?
大头娃:哦!
爸爸:我们一起把那一堆收起来,明天爸爸要审核一下。
说明
1.故事中的商家并非真实的商家,在这里只是举例说明,切勿对号入座。
2.印有军工厂字样的童装代表:国家管控的物品,或禁止的一些服务,比如办退伍证,出售警服,军火器械等等。
3.黄色连衣裙代表:少儿不宜的数据信息。
4. 蓝色羽绒服代表:有参赌性质的数据信息。
5. 黑色童装代表:与毒品相关的书籍信息。
6.紫色牛仔裤代表:原创度高的数据信息。
7. 褐色衬衫代表:用户体验度高的数据信息。
8.白色风衣代表:没有价值,不能为用户提供帮助的垃圾数据信息,比如抄袭的文章,大量采集的文章,镜像的站点等等。
9.长期合作对象代表:白名单。所谓白名单,就是被百度直接信任的数据信息,这类数据信息一旦有更新,会被马上抓取,然后建库索引,直接参与排名。包括一些大型的站点,对社会有用的站点也会受到这样的优待。
巴郎提示
百度搜索引擎会通过它自身算法来过滤掉垃圾数据,屏蔽掉敏感词数据。会信任权威性数据,比如收录非常高的高质量网站,权重高的网站,所以网站中不要出现违规违法的信息。
敏感信息,不然后果很严重。百度官方目前公开公布的算法大概20多种,所以作为SEO从业者必须时刻关注百度搜索引擎的动态。这点是非常重要的。
04
建库索引
通过筛选页面这个环节过后,所有留存下来的信息基本都被判定为优质内容,然后进入建库索引环节。在这个环节搜索引擎对信息数据进行分门别类。
比如:手表网站归为一类,服装网站归为一类,美食网站归为一类,等等海量的数据信息一一分类入库。
爸爸:儿子!我们接下来要对这些服装进行入库登记。你来计数,爸爸来分类图库。
大头娃:恩恩!好的哟!
爸爸:
1号仓库,牛仔裤1亿件。
2号仓库,褐色衬衫XL款4千万件,M款6千万件,S款2亿件。
3号仓库,男士风衣3亿件,女士风衣1亿件。
4号仓库,……
N号仓库,……
爸爸:儿子,你记录完了吗?
大头娃:记录完毕了,呢!
爸爸:不错,不错,放到我公文包里,明天拿去公司存档。
说明
1.故事中,爸爸让大头娃帮忙记录入库,自己亲自整理,这就是百度搜索引擎在为优质的内容进行建库索引。
所谓建库索引也可以理解为登记造册,然后准备输入档案库,等用户搜索相关信息是,搜索引擎就会用正排索引和倒排索引技术到档案库里去调用符合要求的内容给用户,这就是索引建库的意义所在。被索引建库的数据信息将进入下一环节:评分环节。
2.爸爸将服装进行细致划分到对应的仓库这里只是类比,并不是指分类服装,而是指分类信息,搜索引擎每天都要分类海量(按亿计算)的各种信息数据,这些数据来自各行各业,但在分类的过程中,搜索引擎会把性质相同的信息数据分到一个库里。不会出现乱套,杂乱的分类。
它的工作效率是非常高的。因此这种技术是非常高超的。对海量的信息就行详细的分类绝不是人工手动可以做到的,必须利用技术写出一套分类规则,这正是搜索引擎伟大的地方。
如果搜索引擎不在这个环节分类好,那么用户在搜索关键词的时候,就无法匹配到对应的搜索需求,就会出现答非所问的现象,大大降低了用户体验。
05
分析评分
第二天清晨,爸爸带着大头娃来到公司
爸爸:儿子,今天爸爸要给昨天分类的信息表进行入库,工作量会很大,你不能偷懒,睡懒觉哈。
大头娃:哦!知道啦!
爸爸:上午咱们将信息表入库,下午,咱们在评分。
大头娃:好嘞!没问题!
时光飞快,父子俩忙活一上午,总算处理完了所有的入库信息表。于是到了下午紧张的评分环节。
爸爸:儿子,鼓足干劲,今儿下午的活课不轻松啊。我要教你好多东西哟!
大头娃:嗯,我昨天晚上睡可香了,今天干劲儿十足呢!老爹!这么多数据要怎么分类啊。
爸爸:我现在开始教你,你拿个小本子,我说你写。
爸爸:第一阶段叫印象分,就是这些网站给我们的第一印象。
第一步:先看这些服装各自来源于哪些网站,然后看下他们网站的年龄。网站年龄越大,我们给予网站信任分,信任分5分。
第二步:看下这些网站所卖的服装是否与网站主题定位相关,不相关扣10分,相关就加5分。相关就是:卖服装的不能出现卖手表,挂羊头卖狗肉,这影响用户体验。
第三步:内容的实用性。如果内容对有用户有价值的加20分,如果不实用,不加分。评判实用的标准:内容原创度高低(8分)、内容真实度高低(5分)、阅读量(2分)、转发收藏(3分)、用户停留时间(2分)
大头娃:哦哦!好的哟!
爸爸:这只是初步评分,我们还要进行第二阶段的评分。
爸爸:第二阶段的评分规则,是咱们家的祖传秘方,你高祖爷爷流下来的。评分规则分文两块评判:第一块儿是站内细节优化,第二块是网站本身的构架与相应速度。你现在如果记不住,不会运用也没关系。爹爹慢慢教你。
第一步:站内优化细节评分,这一环节是重中之重。包括:首页,栏目页,内容页的TDK唯一性;网页的URL绝对地址化;图片Alt属性,站内的内链建设;站外的外链建设;还有其它各种的小细节,今后再慢慢交给你。
第二步:网站自身的结构导致网站本身的打开率如何。儿子,你去抓取网站数据的时候,有没有感觉到有的网站,他娘的,你抓不动,或者有的网站,你打地洞走钻不进去,是不是?为什么呢?抓不动的网站是因为他们网站的JS代码太多了。
再者我们祖传的秘方说过,JS代码基本不抓,因为这个烫手,我们抓不了。至于你钻进不去,是因为他们服务器不行,三天两头宕机,所以你钻不进去。他们的图片上经常不写标识,对我们的体验来说太差,最后就是URL经常带不开,这是DNS解析没做好。以上几个因素是扣分的重点。
B站直播中的这个大头小姑娘就是用JS做出来的
大头娃:爹爹你说的好对额。这些情况好像都发生过。我确实有的钻不进去,有的要钻老半天。有的包裹我打包打不动,原来是这些原因啊!
经过一下午的忙碌,父子俩最终做完了评分工作,结果如下
爸爸:儿子,这是所有服装类网站的初始页面评分,每一个类目有基本的评分标准,类目与类目间的标准不一样。你看一下,以后你要学着这么排。
女装网的初始页面评分
标准分:200分
女装网站1号:276分
女装网站2号:266分
女装网站3号:255分
女装网站4号:249分
女装网站5号:222分
女装网站6号:201分
女装网站7号:192分
女装网站8号:177分
男装网的初始页面评分
标准分:100分
男装网站1号:188分
男装网站2号:174分
男装网站3号:161分
男装网站4号:157分
男装网站5号:130分
男装网站6号:105分
男装网站7号:99分
男装网站8号:82分
SEO网站初始页面评分
标准分:600分
SEO网站1号:999分
SEO网站2号:842分
SEO网站3号:728分
SEO网站4号:681分
SEO网站5号:624分
SEO网站6号:564分
SEO网站7号:462分
SEO网站8号:278分
N多网站初始页面评分


在此省略。
大头娃:爹爹,你这是怎么排的啊,这些分数你是怎么给的啊?
爸爸:我排的时候你不认真看,还打瞌睡。不过下一环节在仔细教你。
大头娃:嗯嗯!为什么还要进行下一环节呢?
爸爸:下一环节我们要把这些做好的数据,整理好,放进我们的site筛选环节中。今天很晚了,我们明天再做。
第二天,父子两又干劲满满地来到了公司。
爸爸:儿子昨天给你说进入我们的site环节,你知道为什么要进入这个环节吗?
大头娃:布吉岛!
爸爸:因为site环节是一个页面展出前的最后一个环节。
大头娃:哦。我有个问题,同样都是网站,为什么有的初始页面评分那么高,有的就那么低呢?
爸爸:这个问题太大了,我现在没空,下午在告诉你。
说明
1.在分析评分阶段,搜索引擎虎根据它的评分机制,评分项,算法机制来对页面给一个初始评分,这个评分有一个标准,每个行业的评分标准是不一样的。
2.巴郎在这则小故事中,列出了2类行业词,服装行业和SEO行业。在服装中我又列出了男装与女装做对比,服装和SEO又做了行业对比。
目的是为了直观形象来给大家说明。数字是巴郎为了故事的情节需要而随意编配的,并不具备科学新与严谨性,请读者们不要对号入座。本故事纯属虚构。
06
展出排名
展出排名是最后的结果输出,也是对SEO从业人员最直观的效果反馈,你的优化策略都不对,行不行,在这个化解就直接进行验证。
下午,爸爸把大头娃叫到办公室。
爸爸:上午你问的这个问题问的很好,很多SEO从业者都不知道这些秘密,这可是咱门家的祖春秘方,你记住咯,不能告诉别人
爸爸:因为女装这个行业竞争十分激烈,女人的钱好赚呗。
所以要求也高,因此对女装类的网站评分标准:200分是及格线.
高于这个分数,进入site库,并且直接参与排名.
低于这个分数,不能进入site库,但是会建立索引,等到它超过这个分数线以后,就可以进入site库,参与排名了。
男装这个行业竞争没这么高,大部分都是屌丝。记住男人的钱最不好赚,低消费人群。赚男人的钱,要用女人上。
所以男装行业的网站评分标准:100分是及格线。
高于这个分数,进入site库,并且直接参与排名,反之同理。
至于SEO类的网站
SEO目前在中国的情况是,SEO圈子属于小众领域,SEO行业确是大众所需。
但这类网站坑蒙拐骗的多,本身领域内就小众,这群人中大多数人还不敬业,没有职业操守,道德素养全无,把整个行业搞的跟过街的老鼠一样,你爷爷临终前告诉我,SEO类网站评分标准:600分为及格分,没达到标准的全都不给排名。
大头娃:哦!我明白了。怪不得我去抓一些网站,对我特别不友好,尤其是那个SEO网站8号:278分 那个,我进去了晕头转向的。
千里眼变成了几米眼,顺风耳直接嗝屁了,啥也听不到。
我翻了几十个跟斗,还没翻过它的首页,我累的不行,休息会,实在翻不动了,我只好回来了。但是那个999分的网站就特别的好。
爸爸:278分这类垃圾网站就是垃圾网站,网页打开速度慢,所以你翻跟斗翻不动。
DNS解析太慢,所以你只能看到几米的东西。
耳朵听不进就是因为JS代码太多,图片没优化好。
999分的网站和我们有白名单协议,他的爷爷和我的爷爷关系很好,当年还帮过我们家呢?
大头娃:怪不得哟,我一进去,他家的仆人对我特别好,玩耍的时候,心情特别舒服,还问我,你是大头娃吧,把这当自己家,随便吃,随便逛,随便玩。
爸爸:哈哈哈!儿子,爸爸要把这些数据录入到排名系统中,下午我们在公司大门外的电子广告墙上要公布这些信息。你过来我教你。
大头娃:好的哟!
经过一上午的忙碌,父子俩将最终的广告结果公布。
女装类
女装网站1号:276分
女装网站2号:266分
女装网站3号:255分
女装网站4号:249分
女装网站5号:222分
女装网站6号:201分
男装类
男装网站1号:188分
男装网站2号:174分
男装网站3号:161分
男装网站4号:157分
男装网站5号:130分
男装网站6号:105分
SEO类
SEO网站1号:999分
SEO网站2号:842分
SEO网站3号:728分
SEO网站4号:681分
SEO网站5号:624分
第N类


说明
1.在上面的分析评分环节中搜索引擎对每种不同类型的网站的评分制度是不同的,这就解释了,为什么用同样的手法去优化不同的网站,最后得到的排名结果确大相径庭。这是目前SEO行业中,很多从业人员没有搞明白的一个根本原因。
2.搜索引擎的评分机制与评分项其核心并没有改变。
但是
行业与行业不同
关键词与关键词的竞争度也不同
刚需也不同
商业价值更不同
差异化等等各种因素决定了关键词的评分标准不同
所以用同样的SEO优化策略去优化不同的网站,其结果是截然不同的,这一点请牢记。
巴郎提示
讨好搜索引擎与提升用户体验是SEO中永恒的并驾齐驱的课题。不可顾此失彼,必须通盘考虑。
07
监控排名(马拉松赛跑)
监控排名阶段也叫马拉松赛跑阶段,这是SEO优化排名阶段中最难的一个环节。虽然最红我们有了排名,最终被展出,但是如果我们后面没有进行后续优化的话,我们的排名很可能会掉下去。不过掌握正确的优化方法才是排名稳固的不二法宝。
且说父子俩忙活一上午,公布了广告结果,镇上的店家们,都赶过来争相观看。连外省的人都跑来了。
大头娃:哇!爸爸快看,那么多人哇。有看童装的,还有女装大佬,有看汽车的,还有查询演唱会门票的。还有好多好多呀!
爸爸:哈哈!人越多越好,我们家族就是为这些人提供服务的。这也是我们的职责所在。
大头娃:咦!爸爸,那个男装网站6号:105分变成202分了,第一名变第二名了耶。
男装类
男装网站6号:202分
男装网站1号:192分
男装网站2号:174分
男装网站4号:172分
男装网站3号:161分
男装网站5号:158分
爸爸:大头娃不愧是千里眼,顺风耳。排名呢是随时变动的,最后一名也可能排到第一名,第一名也有可能变成最后一名,咱们家族还有一个秘技,叫:持续监控排名。
只要客户本自身网站优化好,排名是非常稳定的。咱们本身就是做这个业务排名展出生意的,必须一碗水端平,对业务客户都一视同仁,这样咱们的业务才能一直做下去,才能被大家喜爱呀。
你爷爷临终前把教导我:要服务好客户,要一视同仁,要坚持初心与正能量,你以后长大了,要接爸爸的班,以后也要像你爷爷那样,一丝不苟做好这些工作。
大头娃:嗯嗯!
说明
1.在持续监控排名这个阶段,所有的排名都是变动的,但为什么有的网站排名很稳固,受到百度算法的影响不大呢?因为这类型的网站本身的权重就很高,网站内的每个页面的初始分值也很高。
百度把这类网站放入白名单中,白名单中的网站排名基本上不会收到影响。所以建议大家一定从白帽SEO做起。不要欺骗搜索引擎,用正规的手法去优化自己网站,来获得一个稳固的,持久的排名。
2.但任何网站优化的基本准则都必须遵循搜索引擎的评分机制,做好站内优化,站外优化,用户体验,网站的基本架构配置。只要做好这些,你才能通过搜索引擎的排名机制得到最高的页面初始评分值,评分越高,越容易被收录,有了收录,才能有更好的排名。

最后的话
出来混始终要还,有些钱我们不能挣。
人只活一世?不一定。因果好轮回,苍天饶过谁?
好好的生活,好好的学习,人一生很短暂,但有很多美好的东西等待着你。
本文作者:巴郎本文首发:巴郎小站巴郎小站:http://www.8alang.com/公众号:巴郎刊公号ID:balangk微博ID:B巴郎LEND作者简介巴郎:一个有趣的90后小哥哥,做过传统销售,后结缘SEO入行互联网,现自由职业佛系青年。喜欢就点个“在看”,转给朋友们欢迎你“关注”长按下图识别二维码关注做一个有趣的人

版权声明