汇成软件 Create the world!!!

让你的网站远离Google补充索引

    目前,有一种方法可以让网站获较高的搜索引擎排名,既简单又有效果,并且已经在公众领域流传了很久。越多的人知道这件事情,Google就越有可能采取措施阻止并改变算法。这篇文章将具体介绍这一方法,告诉你如何让网站在搜索引擎中获得更好的排名,还有更重要的是,如何让你网站远离Google的补充索引。     [b]要了解这一方法,你必须先知道什么是[/b][b]Google[/b][b]的重复内容过滤器。[/b]可以这样简单地描述它:Google不希望在你搜索“搜索引擎优化”这个词时,首页的10个结果都显示完全一致的内容,告诉你什么是搜索引擎优化。相反的,它只希望你看到一个关于搜索引擎优化定义的结果,而余下的9个结果各不相同;这样你就不会经常遇到重复的内容,其他相关的结果也确实是你想要的。     为不让用户得到相同的搜索结果,每次Google蜘蛛抓取和索引网页时,它都要检查是否已经收录了一个类似的网页,是否属于重复网页。至于Google是如何做这个工作的,无人清楚。但它可能考虑到下面的某些或全部因素:网页文本长度,网页标题,标题标签,关键字密度,检查是否存在完全重复的句子片段等。由于Google的重复内容过滤器,整个行业努力避开这个过滤器,关键词都选择那些流行度不高的词语。     回到原来的话题,Google索引一个网页后,声称没有检查到重复网页,其实重复网页已经被收录在Google的补充索引中。你竟然不知道Google有两个索引?是的,的确有两个索引:一个主要索引,一个补充索引。有两件重要的事情:如果可能,Google总是先传递主要索引中的网页;只有在主要索引中找不到满意的搜索结果时,它才会到补充索引中提取网页。这就是说,如果你的网页被收录在补充索引中,几乎可以肯定,你永远也不会出现在搜索引擎结果页,除非你的关键字没有竞争对手。     这一切似乎相当合理,但有一件小事情我没有提及到。如果其他人复制了你的网页怎么办,譬如是你商业网站的主页,当Google索引了这个复制网页,它立即就判断出它是重复网页。现在Google发现了重复的网页,必须决定哪个应该放在补充索引,哪个应该放在主要索引中。显然是把你的网页放在主要索引中,是吗?但是,Google如何知道哪个网页是原始网页,哪个是复制的吗?它们不知道。即使他们拥有良好的排名算法,准确度高达99%,还他们依然会出错的。     有个重要的问题,如果某个人复制了你网站的主页,并且让Google认为他们的网页是原始网页,那么你的网页就会被放进补充索引中,并且很长一段时间不会出现在搜索引擎结果页面。如果你还不理解是怎么回事就糟糕了。时间会让你明白,结果将越来越糟糕:     如果其他人复制了你的网页并生声称他们的是原始网页,你可以通过版权律师阻止他们的行为,致信互联网服务提供商,求得他们的帮助,向Google发送“Reinclusion Request(关于要求重新收录)”的邮件,让它重新评估收录你的网站。但是最近抵制这种事情的发生出现新的难题:可公开访问的代理服务器的使用。(代理就是将内容储存在离你较近的网络端口以提高网络速度。从理论上来说,这是件好事情。)     现在有许多代理服务器,在这里我就不一一列举了。但我要描述一下代理服务器的工作程序:他们派出机器人(类似于Google的搜索引擎机器人)抓取网页,读取内容,然后复制你网站的内容并存储在代理服务器上。当他们的用户请求浏览你网页的时候,他们可以将存储在代理服务器上的网页迅速提供给用户,而不需要二次到因特网上搜索。问题是,Google有些时候判定代理服务器上的网页,即你网页的复制内容是原始内容,却不承认真正的原始内容。     更糟糕的是,有些人故意使用代理服务器复制存储其他网站的内容,然后使用正常的搜索引擎优化技术(白帽和黑帽)使代理服务器上的网页在搜索引擎中获得排名,让搜索引擎的重复内容过滤器把你的合法网页排放到补充索引中。     更严重的情况是,某些代理服务器的搜索机器人通常都假装成Googlebot或Yahoo机器人,花言巧语哄骗原始网页,让你难以认识到它是代理服务器的搜索机器人。这就是主要搜索引擎积极地发布如何辨别和验证他们搜索机器人方法的原因。目前最大的问题是,如何保护你的网页不被代理服务器的机器人复制。下列几种可行的解决方案,请根据你网站主机的技术和技术能力选择切实可行的方法。     方法一:如果你的服务器是Apache和PHP,你可以通过设置主机检查主要搜索引擎机器人的意图,使用php和.htaccess文件,你可以利用其他资源阻止代理服务器复制存储你的网站。但是,这只对遵守规则和能自我辨别的代理服务器有效果。     方法二:如果你的服务器为MS Windows和IIS,或者你正在使用的共享主机方案不允许你做防护措施你,请向专业人士求助。     方法三:如果你的网站以PHP 或ASP为主的话,这是目前最好的、最方便的解决方法:将你的所有网页都使用“noindex”和“nofollow”(即不索引、不提取链接)作为robot meta tag,然后对每个网页进行PHP或ASP脚本检查,查看是否为真正搜索引擎机器人。如果是,再将“index”和“follow”(索引,提取链接)设置为网页的robot meta tag。这样容易辨认哪个是真正的机器人,哪个是想欺骗你的代理服务器的机器人。因为主要搜索引擎会公布索引程序,并且按照程序执行任务,包括IP查找等。
作者:admin 分类:seo知识 浏览:504 评论:0
留言列表
发表评论
来宾的头像