Yangfan.net

标签:搜索

共 4 篇文章

  • 针对Google的博客SEO

    2007/04/08

      应人要求,根据我的经验,介绍一下怎么才能让自己的博客被Google搜索到并且搜索得更多,排名更好。这基本属于SEO的范畴,不过个人Blog的SEO和商业网站的SEO虽然都是SEO,但是侧重点应该有所不同。
      我的这个站发布于3月20号,目前Google的抓取和收录情况良好,部分页面,尤其是原创性的长文章页面在Google的搜索结果中表现不错(即使还在 Sandbox)。由于刚刚发布不到一个月,数据还没有更新,因此 PageRank还是0,需要等一两个月再看看表现。所以说其实我没有资格来说SEO,不过既然被人找上门来了,就胡扯几句。

      至于为什么对自己的Blog做SEO或者做推广?各人 看法不同。当然,如果你觉得不需要,那么就不用往下看了。

      1. 使用独立域名,自己架设的空间。保证自己能对页面的控制权,可以进行一些页面优化,关键词优化,添加一些简单而又有用的功能提升排名。如果你不具备自己假设独立域名站点的能力和条件,那么在选择你的Blog服务商的时候,注意以下几点:

      1) 不要使用 网易博客搜狐博客作为你的Blog。这两家Blog都使用了Ajax技术来构造整个页面,使得搜索引擎几乎无法从页面上抓到任何有用的信息,所以在Googlebot足够智能到能自动执行Ajax之前,使用 网易博客搜狐博客就等于自绝于所有搜索引擎——不光是Google。另外,参考之前 对搜狐博客和百度空间的分析,如果你想让你的Blog能在除了Google和百度之外其他的搜索引擎上出现,那么不要选择 百度空间,否则的话百度空间还是可以的,因为百度对它的支持非常好,排名总在最前面。

      2) 尽量使用支持Javascript的空间。事实上出于安全考虑,大部分服务商都不在此列,包括 百度空间和微软的 Live Space,不支持Javascript使得一些优化不能进行。

      3) 不要选择经常被GFW的国外服务商,例如 Blogspot,尽管它的功能非常强大并且被Google很好地整合。除非你人在国外并且完全不考虑国内的读者,否则这些时通时断的服务商显然不被考虑。

      2. 保持网站的畅通。慢一些问题不大,但是如果经常无法访问就是大问题了。如果你的网站托管在国内,一定记住去 备案自己的域名,现在风声很紧,不备案的网站随时可能被关闭,连数据一起丢失。不备案是万万不行的,不过这不等于备案就万事大吉了。你的网站托管商或者当地公安部门都可能暂时关闭你的网站,只要有一点点不和谐言论,或者和你托管在同一主机的其他站点有不和谐言论,你也会被波及。因此,如果条件允许,把网站放到境外的服务器上,找一些没有历史污点并且服务还不错的空间。从现在的信息看,放在国外被GFW的概率比放在国内被拿走硬盘的概率要小得多,损失也要小得多。

      3. 保证自己网站高质量的内容和经常性的更新。Google喜欢原创内容而讨厌转载是长期来大家的共识。拥有大量原创独创内容的网站更容易得到高的PageRank。而更新频繁的网站也会得到更多青睐。所以在硬件(域名,空间)达标的情况下,内容是王道。任何时刻任何情况下,好的内容比任何特意的优化都重要得多。

      4. 增加外部链接。尤其是PageRank高的网站上给你的链接,往往会起到意想不到的好作用。这是由PageRank的算法决定的。比如找你的朋友给你做个链接,比如在别人的空间留言时留下自己的地址。当然,不要因此而去动歪脑筋,去做Spam,一旦被发现,可能你的网站直接就废了。

      5. 页面的静态化和URL的含义。对搜索引擎来说,静态化的页面是最友好,最容易被收录的,因此尽量静态化你的页面吧。 WordPressMovable Type都需要较复杂的配置来实现页面静态化,据说 Z-Blog相对比较容易不过我没试过。而我的 北落师门从一开始的设计,就是以所有页面的静态化为基础的,因此不需要任何配置就可以做到。如果静态化的页面能有一个比较好的名字则更好,例如 /2007/02/01/google_onsite_interview显然要比 http://www.yangfan.net/blog/12007021816320.htm更加让人喜欢。搜索引擎也一样,页面URL里提供的关键字也会影响页面的收录。

      6. Tag的使用和站内链接优化。文章的Tag非常重要,记得一定要写Tag并且最好把它链接到相应关键字的Tag页面,例如这样: Google。同时,在tag的链接<a>标签上,记得添上rel=“tag”,这会被很多搜索引擎识别,比如 Technorati,尽管它被和谐了,但是它仍然毫无争议地是 真正的博客搜索老大。Google也明确说了使用Tag有助于它对Blog的评价。站内链接则是自己可以控制的优化方案,除了前面说的Tag之外,还有 一些其他的注意点,例如每个网页最多离首页四次点击,等等。 Sitemap是一个很好的解决方案,把它放在你的根目录里吧(然后在首页加个链接)。很多 第三方工具都可以制作Sitemap。

      7. 更新时自动提交ping信息。意思就是当文章更新的时候,自动告诉一些服务器你更新了文章,邀请他们来抓取。基本上所有主流的架站工具都提供这个功能或者类似的插件,另外我发现Live Space也有这个功能,其他Blog服务商是否有此功能没有经过测试。我自己的代码ping了Google的 Blogsearch ping serverTechnorati ping serverWeblog.com ping server。在我发文之后3分钟内,我就可以用 Google Blogsearch搜索到我刚发的文章。事实上这样接受推送更新的服务器很多,不过并没有全部告诉的必要,我觉得Google和Technorari足够了。如果百度有这样的Ping server,我想我也会发送的,可是它没有(所以 百度的博客搜索基本就等于百度空间的内部搜索)。

      8. 优化页面的代码。用符合 w3c标准的代码,不要用table。Google更喜欢标准代码。无论你的页面结构如何,无论是两列还是三列,内容在左边还是中间还是右边,记住一定在页面源码中把它放到尽量前面(用table就做不到)。选择这样的模版,或者自己写这样的代码。另外,所有的图片加上alt标签,所有的链接,如果有必要的话加上title(和链接文字一样就不用加了),这样的细节有助于你的网页更加被搜索引擎所理解。

      9. 提交网址。事实上往搜索引擎提交网址的作用已经越来越小,远远不如几年前那么重要了。这里推荐一个: DMOZ。如果你能成功将自己网站提交倒DMOZ上,那么对于你的PageRank会 大有好处

      10. 让你的朋友用 Google Reader 订阅你的feed。这条看上去很古怪是吧?但是事实是,Google确实把一个Blog在 Google Reader中的订阅数作为了一个评价指标,因此,使用Google Reader吧。顺便说一句,同样道理,让朋友们将你的文章收藏到 百度搜藏也可以让百度提高对该页面的权重。

      11. 使用Google提供的各种小工具。比如 Google Analytics统计工具(强烈推荐),比如 Google Coop站内搜索引擎,当然还有 Google Webmasters来随时查看自己的站点在Google的表现。

      12. 不要尝试黑帽SEO。很多网站因为 黑帽SEO被永久性咔嚓了。而我们做的,是完全非商业性的,只是用来展示自己表达自己的个人空间而已,何必要去急功近利呢?

      就写这么几点吧,我并不是SEO专家,才刚上路。因此只是发表一些自己的看法,欢迎大家交流或者拍砖。

    01:14 | 分类: Tech

  • 站内搜索!

    2007/04/06

      用Google的Custom Search Engine功能自己配了一个站内搜索,在每页的右边可以找到。不过很显然这个搜索是在Google的数据库中进行,所以结果不是实时的,就看Google的爬虫爬我的站点有多勤快了。
      另外,小小改动了一下界面顶部和底部的风格,主要是原来那个和WP的某风格过于接近了。

    23:23 | 分类: Uncategorized

  • 是谁小鸡肚肠?又是谁在流氓?

    2007/01/12

      首先打开http://blog.sohu.com/robots.txt,看到以下内容:

       User-agent: Googlebot
       Disallow:
       User-agent: baiduspider
       Disallow: /
       User-agent: Nutch
       Disallow:
       User-agent: *
       Disallow: /
      可以看到,搜狐博客禁止了除了Google和Nutch之外一切搜索引擎的抓取,而且还单独把百度拿出来深恶痛绝地鞭尸。这显然是小鸡肚肠的行为,对用户很不负责——因为别人无法通过搜索引擎搜到自己的博客内容。但是且慢,真的如此吗?

      在各个搜索引擎用site:blog.sohu.com进行搜索。

      首先是Google的结果,共有搜索结果417000项,全部是三级域名xxxx.blog.sohu.com这样的首页,任意找一个xxxx.blog.sohu.com去site:一下,可以看到还是都抓到内容的。417000,是一个三级域名的数量,差不多也就是他抓到的搜狐博客的用户数量。

      然后是搜狗的结果,2984875个页面,看到的也都是三级域名,随便找个继续site:,可以看到只有首页没有内容,说明sogou就算是在自己家也还是很道德的。至于为什么sohu博客吃里扒外让Google抓却不让自家的sogou抓,那就要去问张朝阳了。

      接着给出有道的结果:抱歉,没有找到与 “site:blog.sohu.com” 相关的网页。很好,遵纪守法。

      最后隆重推出百度的结果,找到了131000篇,数量不是关键,关键是它的结果从第二篇开始就是内容页面,也许是百度不敢太过分,从外部过来的页面抓了之后看了眼robots.txt,于是不再往下继续,但是好歹,有外链的全给抓了(应该不是全部,否则数量也太少了)。这只有三种可能,一是百度不懂robots.txt的规范,二是百度装作不懂,做了流氓——还好它没全抓,否则就不是流氓而是黑社会了,第三就是只抓外链页面是允许的,我个人感觉这种可能性不大。地震震得w3c网站连不上,所以也确定不了。

      看完sohu的,再来看看流氓百度家的http://hi.baidu.com/robots.txt,内容如下:

       User-agent: Baiduspider
       Disallow:
       User-agent: Googlebot
       Disallow:
       User-agent:
       Disallow: /

      流氓就是流氓,比他强的他不得罪,比他弱的,全部封杀。至于最后那个User-agent为什么不加个*,我就不知道了。这样写是不是符合规范呢?如果不符合,那就是白写,就算页面被人抓了也是白抓。那么来看看site:hi.baidu.com的搜索结果。

      首先还是Google的结果,只有96400个结果,都是每个人的首页!而且搜几个朋友的百度空间,发现只有首页没有内容,也就是说,Google也许只抓了每个人的首页,即使它被允许全抓。

      然后是有道的结果,和Google一样,只有每个人的首页而没有内容,一共171000条。有道还是挺听话的。至于为什么数量几乎是Google的两倍,很简单,因为Google没有抓中文目录,而有道抓了。正好这里顺路鄙视一下百度这么大个家伙居然还允许用户用中文目录名。

      百度自己的结果在这里就没有什么意义了,4980000条,挺多。

      最后是搜狗的结果,667756项。结果很眼熟是吧,没错,就是和百度搜搜狐博客的结果非常像,应该是只抓了外部有链接的,没有继续扒拉。

      好了,结果出来了,搜狐博客和百度空间,毫无疑问,都不是合适的BSP,因为它们连用户内容被检索的自由都不给。相比之下同样是门户的博客,新浪和网易至少没有从robots.txt上去做手脚。

      谁是流氓呢?在能找全robots.txt规范前不下定义,但是比较显然的是,百度流氓的可能性很大,而搜狗的以彼之道还致彼身很可能因为百度自己的写法错误而只能让百度有苦说不出。

    21:30 | 分类: Tech

  • MSN搜索悄然行动

    2006/09/13

      今天用MSN,忽然发现“发送”按钮下面多了个“搜索”按钮,一按,直接就把我打的字给搜索了,搜索结果同时发给两边聊天的人。很显然,这是MSN搜索引擎的圈地运动,微软再次祭起其百试不爽的捆绑大旗,这次的目标,直接就是占领用户桌面。另外,这功能应该是早就埋伏在客户端里了(8.0和7.5都有),不用任何更新,直接悄悄发个激活指令就能用。不知道MSN里还埋伏了些其他什么东西。

    19:41 | 分类: Tech