Google和Baidu收录网站页面的标准

摘要:很多客户问,为什么我的网站被百度(谷歌)收录了,但是没有被谷歌(百度)收录,为什么我在百度(谷歌)排名还行,但是谷歌(百度)的排名还很差?一个新域名的网站,然后不
  很多客户问,为什么我的网站被百度(谷歌)收录了,但是没有被谷歌(百度)收录,为什么我在百度(谷歌)排名还行,但是谷歌(百度)的排名还很差?一个新域名的网站,然后不在其他任何网站做链接,而直接往百度和Google搜索引擎的提交页面进行提交。一个月过去了,百度收录了,google没有,这说明了什么呢?说明百度比 Google好吗?绝对不是的。因为Baidu和google收录页面的标准完全不同,收录策略不一样,用一句话来形容,就是google更乐于收录大站的页面,百度则乐于收录新站的页面。
 
       Google是按照网页级别(PageRank)来收录的,只要网站有一定的网页级别,Google就会快速收录,而没有网页级别的网站,google则很慢,Baidu采用的是来者不拒,多多益善的原则,无休止的进行收录。Baidu的这种不按网页级别的收录方式造成大量的垃圾网站流行,因为只要做一个垃圾站,Baidu就会立刻收录(25000页以内),这等于变相的鼓励大家去做垃圾站,有些企业做了7-8个网站,以保证搜出来的都是他们。当垃圾站横行的时候,Baidu再通过人工的方式封站,再引诱其站长办理百度竞价排名。因此Baidu和大量的个人站长都结有恩怨。
 
       Google的这种收录方式比较科学的。因为互联网上的页面是个天文数字,收录应该是有选择的收录,好的网站则多收录,新站则应该少收录,等其慢慢知名了以后再多收录,这样也提高了效率,让用户搜索到更好的页面而不是更多的页面。如果对于新站不做分析就快速收录,那么会使得从技术上对抗恶意网站作弊(SEO)变得非常困难,Google通过给予新站给出“考察期”来分析这个新站是否是作弊的垃圾站,而百度就只能依靠人工方式手动地删除垃圾站。
 
       对于收录网站的具体操作上,Google的爬虫显得较为“体贴”网站-google爬虫占用服务器的资源非常少,通常是先查看网页是否更新,如果更新了再抓取整个页面,这种方法耗费流量较少。而百度则不管三七二十一上来就抓整个站,有时甚至不遵守robots规则,而且其爬虫数量非常庞大,对于页面较多的网站通常会耗费惊人的流量,导致网站速度变慢。
 
       百度这种大量抓取的方式,会让用户能够在百度搜索出一些google里搜索不到的页面,但这实在是损人利己。其带给网站不少负面效果:服务器和带宽资源白白消耗,垃圾站被变相鼓励了,原创的有特色的网站则被边缘化,MP3音乐网站则更苦不堪言-自己的MP3被百度盗链后带来大量文件下载却没有带来页面访问。
 
       因此,中国的网民中大量的新网民和菜鸟新手喜欢用百度搜索,因为百度往往搜索到很多别处搜索不到的页面,但内容的匹配度则令人质疑,而专业人士和老鸟则更喜欢用google,个人站长则普遍和百度有“个人恩怨”。因此百度在业界的Blog以及社区中口碑都不太好,但在普通的低层次的网民心中却不错,这些大量的普通网民给百度带来了大量流量。
  • 发布于2015-04-29
  • 浏览52人