行业资讯

Twitter技能问题导致抓取和URL类型化问题

  6月27号Google东西条PR更新了一次,然后许多人留意到Twitter首页PR降为零。(Google首页也降到9,不外这不是重点。)7月19号Google居然又更新一次东西条PR。Google更新东西条PR值从一个月一次变到3个月一次,甚至半年一次,所以这次不到一个月就再次更新有点蹊跷。据今朝透露的信息,这次更新PR貌似主要就是为了批改Twitter PR值的问题

  本日看到SEL上Vanessa Fox的一篇文章,表明白为什么Twitter的一些技能失误导致Google抓取、URL类型化、PR计较等一系列问题,很值得一读,所以大抵翻译一下供读者参考。

  为什么不是Google的错误,Google却这么上心,更新了PR呢?揣摩原因有二,一是无论任何环境下Twitter首页PR为零,各人必定是说Google有问题,而不是Twitter有问题,固然其实确实是Twitter本身造成的。二是,在Google+推出的同时,Google与Twitter相助条约到期了,不能直接通过API抓数据了,这时候Twitter PR降为零,各人恐怕心里会嘀咕,这Google真是过了河顿时就拆桥啊,Google不想背这个黑锅。

  言归正传。

  Google一位讲话人回覆SEL关于Twitter PR时说:

  最近Twitter不绝修改它们的robots.txt文件和HTTP头信息,玩得太起劲了,临时造成Google算法处理惩罚Twitter时的URL类型化问题。此刻类型化问题差不多办理了,所以我们更新了东西条PR以反应最新数据。Twitter在Google索引库里一直有很高PR,没有处罚。

  所以Vanessa Fox研究了一下Twitter到底有什么robots文件、处事器头信息、URL类型化问题。真是不看不知道,一看吓一跳。顺便提一下,Vanessa Fox是前Google员工,认真网管东西webmaster tools的。

  预感这篇帖子会较量长,才刚开始就这么长了…

  Vanessa Fox搜了一下本身名字“Vanessa Fox”,功效如下图:

  

 Twitter技术问题导致抓取和URL范例化问题

  有URL,但没标题,没说明,也就是其实没抓取,只是部门索引。

  直接搜Vanessa Fox本身Twitter页面URL的功效是:

  

 Twitter技术问题导致抓取和URL范例化问题

  为什么呈现了大写?URL最后头谁人点(.)又是什么东东?到底怎么回事呢?

  先来看看Twitter的robots.txt文件

  twitter.com和的robots.txt文件居然是纷歧样的。twitter.com/robots.txt是这样的:

  #Google Search Engine Robot

  User-agent: Googlebot

  # Crawl-delay: 10 — Googlebot ignores crawl-delay ftl

  Allow: /*?*_escaped_fragment_

  Disallow: /*?

  Disallow: /*/with_friends

  #Yahoo! Search Engine Robot

  User-Agent: Slurp

  Crawl-delay: 1

  Disallow: /*?

  Disallow: /*/with_friends

  #Microsoft Search Engine Robot

  User-Agent: msnbot

  Disallow: /*?

  Disallow: /*/with_friends

  # Every bot that might possibly read and respect this file.

  User-agent: *

  Disallow: /*?

  Disallow: /*/with_friends

  Disallow: /oauth

  Disallow: /1/oauth

  是这样的:

  User-agent: *

  Disallow: /

  也就是说:

  某些环境下,带与不带www的两个版本内容大概是纷歧样的。

  Twitter貌似为了类型和网址,克制搜索引擎爬行www版本。

  所以固然www版本做了301转向到不带www的版本,但Twitter克制搜索引擎抓www版本,所以搜索引擎蜘蛛看不到谁人301啊。杯具啊。

  连向Twitter的链接有的是链到www版本,有的是不带www的版本,既然www版本克制爬行,看不到301,链接权重不能通报,挥霍了。

  所以在第一个抓图里看到返回的是带www的版本,大概原因是这个版本外链较量多,但Twitter克制爬行,所以只是部门索引(也就是只有一些来自链接的数据,没有页面自己的内容)。

  再来看看302转向

  查一下twitter.com/vanessafox这个URL头信息,居然返回302转向到twitter.com/#!/vanessafox。为什么说“居然”呢?请参考301转向和302转向的区别。由于用的是302,权重没有转到twitter.com/#!/vanessafox

  而做了301到twitter.com/vanessafox,虽然,原因www版本被屏蔽,链接权重也通报不外来。为什么不从直接301到twitter.com/#!/vanessafox(这才是Twitter想要的类型化版本)呢?就算要做两次转向,也都要用301嘛,也不能屏蔽www版本嘛。

  再来看看Twitter意图的AJAX抓取

  Twitter想要的类型化URL是twitter.com/#!/vanessafox,个中的#暗示Twitter但愿搜索引擎抓取页面AJAX内容。(这里技能问题较量巨大,就不表明白,即将出书的《SEO艺术》有关于AJAX内容和#标记利用的表明,告白一下,呵呵)。

  不外由于一系列巨大的转向,大概造成了问题:

  Google爬行不带www带#!的URL(twitter.com/#!/vanessafox),然后被转向到twitter.com/_escaped_fragment_/vanessafox

  然后Google又被301转向到带www不带#!的版本

  而用户会见时JS将用户又转回到带#!的版本


·让搜索引擎抓取和索引是SEO优化头疼的一
· 百度MIP技能强势来袭,MIP是否对排名有影
· [MIP技能分享] 织梦/DEDECMS改革MIP教程以及
· 网站SEO优化常见问题汇总
· Twitter技能问题导致沧州SEO抓取和URL类型

TAGs标签: Twitter 技术 问题 导致 抓取 规范化

X关闭

欢迎咨询 400-856-0317 在线交谈 在线交谈