标签:Google
共 35 篇文章,当前第 3 页
-
针对Google的博客SEO
2007/04/08
应人要求,根据我的经验,介绍一下怎么才能让自己的博客被Google搜索到并且搜索得更多,排名更好。这基本属于SEO的范畴,不过个人Blog的SEO和商业网站的SEO虽然都是SEO,但是侧重点应该有所不同。
我的这个站发布于3月20号,目前Google的抓取和收录情况良好,部分页面,尤其是原创性的长文章页面在Google的搜索结果中表现不错(即使还在 Sandbox)。由于刚刚发布不到一个月,数据还没有更新,因此 PageRank还是0,需要等一两个月再看看表现。所以说其实我没有资格来说SEO,不过既然被人找上门来了,就胡扯几句。至于为什么对自己的Blog做SEO或者做推广?各人 看法不同。当然,如果你觉得不需要,那么就不用往下看了。
1. 使用独立域名,自己架设的空间。保证自己能对页面的控制权,可以进行一些页面优化,关键词优化,添加一些简单而又有用的功能提升排名。如果你不具备自己假设独立域名站点的能力和条件,那么在选择你的Blog服务商的时候,注意以下几点:
1) 不要使用 网易博客和 搜狐博客作为你的Blog。这两家Blog都使用了Ajax技术来构造整个页面,使得搜索引擎几乎无法从页面上抓到任何有用的信息,所以在Googlebot足够智能到能自动执行Ajax之前,使用 网易博客和 搜狐博客就等于自绝于所有搜索引擎——不光是Google。另外,参考之前 对搜狐博客和百度空间的分析,如果你想让你的Blog能在除了Google和百度之外其他的搜索引擎上出现,那么不要选择 百度空间,否则的话百度空间还是可以的,因为百度对它的支持非常好,排名总在最前面。
2) 尽量使用支持Javascript的空间。事实上出于安全考虑,大部分服务商都不在此列,包括 百度空间和微软的 Live Space,不支持Javascript使得一些优化不能进行。
3) 不要选择经常被GFW的国外服务商,例如 Blogspot,尽管它的功能非常强大并且被Google很好地整合。除非你人在国外并且完全不考虑国内的读者,否则这些时通时断的服务商显然不被考虑。
2. 保持网站的畅通。慢一些问题不大,但是如果经常无法访问就是大问题了。如果你的网站托管在国内,一定记住去 备案自己的域名,现在风声很紧,不备案的网站随时可能被关闭,连数据一起丢失。不备案是万万不行的,不过这不等于备案就万事大吉了。你的网站托管商或者当地公安部门都可能暂时关闭你的网站,只要有一点点不和谐言论,或者和你托管在同一主机的其他站点有不和谐言论,你也会被波及。因此,如果条件允许,把网站放到境外的服务器上,找一些没有历史污点并且服务还不错的空间。从现在的信息看,放在国外被GFW的概率比放在国内被拿走硬盘的概率要小得多,损失也要小得多。
3. 保证自己网站高质量的内容和经常性的更新。Google喜欢原创内容而讨厌转载是长期来大家的共识。拥有大量原创独创内容的网站更容易得到高的PageRank。而更新频繁的网站也会得到更多青睐。所以在硬件(域名,空间)达标的情况下,内容是王道。任何时刻任何情况下,好的内容比任何特意的优化都重要得多。
4. 增加外部链接。尤其是PageRank高的网站上给你的链接,往往会起到意想不到的好作用。这是由PageRank的算法决定的。比如找你的朋友给你做个链接,比如在别人的空间留言时留下自己的地址。当然,不要因此而去动歪脑筋,去做Spam,一旦被发现,可能你的网站直接就废了。
5. 页面的静态化和URL的含义。对搜索引擎来说,静态化的页面是最友好,最容易被收录的,因此尽量静态化你的页面吧。 WordPress和 Movable Type都需要较复杂的配置来实现页面静态化,据说 Z-Blog相对比较容易不过我没试过。而我的 北落师门从一开始的设计,就是以所有页面的静态化为基础的,因此不需要任何配置就可以做到。如果静态化的页面能有一个比较好的名字则更好,例如 /2007/02/01/google_onsite_interview显然要比 http://www.yangfan.net/blog/12007021816320.htm更加让人喜欢。搜索引擎也一样,页面URL里提供的关键字也会影响页面的收录。
6. Tag的使用和站内链接优化。文章的Tag非常重要,记得一定要写Tag并且最好把它链接到相应关键字的Tag页面,例如这样: Google。同时,在tag的链接<a>标签上,记得添上rel=“tag”,这会被很多搜索引擎识别,比如 Technorati,尽管它被和谐了,但是它仍然毫无争议地是 真正的博客搜索老大。Google也明确说了使用Tag有助于它对Blog的评价。站内链接则是自己可以控制的优化方案,除了前面说的Tag之外,还有 一些其他的注意点,例如每个网页最多离首页四次点击,等等。 Sitemap是一个很好的解决方案,把它放在你的根目录里吧(然后在首页加个链接)。很多 第三方工具都可以制作Sitemap。
7. 更新时自动提交ping信息。意思就是当文章更新的时候,自动告诉一些服务器你更新了文章,邀请他们来抓取。基本上所有主流的架站工具都提供这个功能或者类似的插件,另外我发现Live Space也有这个功能,其他Blog服务商是否有此功能没有经过测试。我自己的代码ping了Google的 Blogsearch ping server、 Technorati ping server和 Weblog.com ping server。在我发文之后3分钟内,我就可以用 Google Blogsearch搜索到我刚发的文章。事实上这样接受推送更新的服务器很多,不过并没有全部告诉的必要,我觉得Google和Technorari足够了。如果百度有这样的Ping server,我想我也会发送的,可是它没有(所以 百度的博客搜索基本就等于百度空间的内部搜索)。
8. 优化页面的代码。用符合 w3c标准的代码,不要用table。Google更喜欢标准代码。无论你的页面结构如何,无论是两列还是三列,内容在左边还是中间还是右边,记住一定在页面源码中把它放到尽量前面(用table就做不到)。选择这样的模版,或者自己写这样的代码。另外,所有的图片加上alt标签,所有的链接,如果有必要的话加上title(和链接文字一样就不用加了),这样的细节有助于你的网页更加被搜索引擎所理解。
9. 提交网址。事实上往搜索引擎提交网址的作用已经越来越小,远远不如几年前那么重要了。这里推荐一个: DMOZ。如果你能成功将自己网站提交倒DMOZ上,那么对于你的PageRank会 大有好处。
10. 让你的朋友用 Google Reader 订阅你的feed。这条看上去很古怪是吧?但是事实是,Google确实把一个Blog在 Google Reader中的订阅数作为了一个评价指标,因此,使用Google Reader吧。顺便说一句,同样道理,让朋友们将你的文章收藏到 百度搜藏也可以让百度提高对该页面的权重。
11. 使用Google提供的各种小工具。比如 Google Analytics统计工具(强烈推荐),比如 Google Coop站内搜索引擎,当然还有 Google Webmasters来随时查看自己的站点在Google的表现。
12. 不要尝试黑帽SEO。很多网站因为 黑帽SEO被永久性咔嚓了。而我们做的,是完全非商业性的,只是用来展示自己表达自己的个人空间而已,何必要去急功近利呢?
就写这么几点吧,我并不是SEO专家,才刚上路。因此只是发表一些自己的看法,欢迎大家交流或者拍砖。
01:14 | 分类: Tech
-
站内搜索!
2007/04/06
用Google的Custom Search Engine功能自己配了一个站内搜索,在每页的右边可以找到。不过很显然这个搜索是在Google的数据库中进行,所以结果不是实时的,就看Google的爬虫爬我的站点有多勤快了。
另外,小小改动了一下界面顶部和底部的风格,主要是原来那个和WP的某风格过于接近了。23:23 | 分类: Uncategorized
-
谷歌拼音输入法
2007/04/04
今天上午发布的,下载地址:http://tools.google.com/pinyin。
几个比较喜欢的功能:
1. 网络同步。可以将自己造的词和使用的词频储存在谷歌服务器上,不管在哪台电脑,只需通过gmail帐号就可以恢复完整的中文输入。默认不打开(默认打开就成流氓了)。不过很显然,这个功能不是为大量公用电脑设计的,网吧用户享受不到这样的服务。
2. 英文输入。按v之后就可以输入英文了,带提示的。这样就再也不怕拼错单词了,这个功能狂赞。不过如果在英文输入模式下也能实现提示就更好了。
其他功能对我来说用处不大,或者说不比我现在使用的要好。出于支持的角度,还是装了一个。如果有对上面两点功能感兴趣的,可以尝试一下,也许会喜欢。
程序的缺点漏洞等都还很多,无论界面上还是功能上,都远远不够完善,不过具体就不在这里说了,直接找开发人员拍砖更加方便。很让我奇怪的是这个东西居然直接发布的1.0.15.0,而不是Beta。21:44 | 分类: Tech
-
如何应聘google
2007/04/02
22:27 | 分类: Uncategorized
-
Google的愚人节
2007/04/01
每一年的愚人节,Google都会和我们开一个玩笑。PigeonRank算法,吃了会变聪明的Google饮料,Google月球研发中心招聘启事,Google Romance……我们早就领教了Google的恶搞本事。那么今年是什么呢?好像还不止一个:
Google TiSP是Google提供的无线网络解决方案,通过城市污水处理系统来提供Wifi信号,没错,你只需要在你的抽水马桶里安装一个无线路由器即可!
Gmail Paper是Google提供的,将你的Gmail打印在纸上并送到你家的服务,并且保证使用对环境无害的再生纸张!当然,Google在愚人节并不总是只开玩笑,例如著名的Gmail就是在2004年愚人节发布的,所以今天也是Gmail的三周岁生日。
16:05 | 分类: Uncategorized
-
Google的又一本土化成果
2007/03/21
Google一直在有条不紊地进行本土化的进程,今天又迈出了一小步,可惜的是,只有少数人能享受到这一小步本土化的成果。
根据春节前后的内部调查结果,Google北京今天下午改变了部分供应的食品种类,我在冰箱里发现了四种新的饮料:鲜橙多,农夫果园,露露杏仁,椰树椰汁。而在原来,除了王老吉之外几乎所有饮料都是国外品牌。至于这四种饮料的上架取代了什么,我却没有印象了,但可以肯定的是被它们取代的都是我没喝过也没关注过的,所以没了就没了吧。现在的冰箱对我来说的唯一缺憾是佳得乐只有橙味和柠檬味的,没有我喜欢的西柚与蓝莓,考虑下什么时候把这个作为系统bug提交上去。由于Google的食品间对于每一个来Google的访客都开放,所以我想冰箱的本土化应该不算是Confidential的吧。
Update(3.22):今天又看到了一种:旺仔牛奶。不知道是今天更新的还是昨天没看到的。零食也换了一些,可惜没有我要的。
20:18 | 分类: Uncategorized
-
Google Offer
2007/02/15
下午收到了hr的电话和email通知,正式offer要到年后,不过总算可以安心过年了。
23:27 | 分类: Uncategorized
-
2007.1.31 Google on-site interview
2007/02/01
去年国庆期间让赵总内荐投的Google APM(Associate Product Manager)。投了也就把这事扔一边了,因为一直不知道APM是否招非应届的,所以几个月没消息也挺正常。
元旦之后接到Google HR电话,问我是不是投了Mobile Wireless Application Engineer,我一愣,然后明白是APM不要我,又看我背景有Mobile开发经验,就给我扔这里了。于是HR和我约了笔试时间。尽管不是想去的APM,但是至少Google本身就足够有吸引力了,Mobile也是我熟悉的方面,既然能去试试,当然是不去白不去,能弄个offer就更好了。
Google对我来说,吸引力在于:一,今年上海分舵就要开张了,去了Google之后就完全不用担心将来回杭州/上海之后的失业问题。二,做久了小团队小项目,也想去丰富一下大团队做大项目的经验。三,Google的工作环境可以让我吃喝不愁,同时也有不错的薪水。四,想离开技术,做些其他事情,不过这条没有实现,Google把我的应聘职位换回了技术职位,使得我还得继续和代码打交道。笔试还是很让我伤脑筋的,好歹三年多没有参加过笔头的测试了,会不会写字都是问题,于是问熟悉的Googler笔试都考些啥,他们都告诉我不用紧张不用准备,去了就是,肯定会。笔试的时候拿到卷子一看,就知道他们说的肯定会是什么意思了,基本上大学学的东西只要没有全部还给老师,这个卷子就能答得八九不离十,可惜的是我还是有一门课还给了老师,导致有一道选择题不会做——当然我怀疑更大的可能是当时没有学这方面的内容,否则题目和四个选项我也不至于完全看不懂。只能蒙了个看上去更像答案的选项,然后在边上大书了“猜的”两字。其他题目都没有什么大问题,差不多20分钟就全部搞定了,然后又磨磨蹭蹭检查了20分钟,什么都检查不出来,于是交卷走人。
笔试后大约两周多接到的面试通知,1月31日上午10点,on site。我原以为还有一个电面,还担心这么多年没怎么说英文,听力和口语能不能过关,后来知道技术职位笔试和电面两个有其一就可以了,而且就算是电面,多半也是中文的。面试前还是很紧张的,又探听一把面试是啥样的,结果得到的答案和笔试前差不多:翻翻数据结构图论组合数学算法什么的书,忘记的记一下,就可以了,没什么可准备的。前一天晚上睡觉前半小时把数据结构和算法书又复习了一遍。上午8点半起床后——这半年来第一次这么早起床——开机,然后发现赵总居然在线,于是赶紧最后打听一下,希望他帮人帮到底。先问有几道题,他说一般是每人三道,做得快就多问点,我说那我还是控制节奏慢慢做吧。又问他有什么要注意的没有,他居然说:拽一点就行了……也只有赵总这么拽的人才能说出这么拽的话来。我要是面试这么表现,肯定被踢出来了。又问题目不会做怎么办,他说:不会做就承认,赶紧让他换题。这句有点信息量,想想也是,一道题不会,本来就三题,1/3答不出,如果卡住好久,少问一道,就变1/2了,更惨,直接说不会,多问几道,那就是1/4,1/5,好歹好看点。
9点40到,填了表填了NDA,被领上8楼关进小屋子,今天面Mobile Wireless Application Engineer的至少我看到的连我在内有5个人,有应届也有非应届,应该是攒一块了,其中有的和我同一天笔试的。10点到了,别人的小屋子里都进了面试官,我的面试官却还没来,又等了10来分钟,终于来了一个,一看就是做技术的。他说,原来安排第一个面我的人拒绝前来,临时找他来代替,所以晚了。看了他手上的名单,原来安排的第一个是Xuhui……估计是为了避嫌,就主动换人了。这个面试官感觉也是被赶鸭子上架,我紧张,他也紧张。上来就先来了个写程序的题,当时估计双方都处于混乱状态,他题目只说了一遍,我也就听了个大概,没细想就开始做了,程序迅速写完,他一看,说,咦,我要你做的是这个吗?我说是啊,难道不是吗,他说难道不是啥啥吗?我还是没缓过来,说,我这不是吗?他说,你这不是那啥啥吗,于是我恍然大悟,忙说是我太紧张,脑子没转过来。然后拿笔划掉了四五行程序说ok了,看上去他对我的改动还比较满意,这时候我开始有点进入状态了,他加了个小改动,我想都没想就在程序里插入一句话解决了。由于第一题出师不利,我就想后面干脆答快点,让他多问几题,弥补下损失,加上当时忽然状态不错,后来他连出了四题都被我哗啦哗啦解决了。我的策略是他报完题之后直接抛一个可行算法给他,然后给他复杂度,然后立刻说这个算法肯定不好,让我想个更好的,然后想一下,给个我认为的最优解。我觉得这样的好处一是不会陷入死局,好歹我有个可行解了,二是这样做的话面试官不太会主动给出提醒,可以显得我是在无提醒下做出来的。第二,三,四题都很顺利,最后一题遇到些麻烦,我给的是时间O(nlogn)空间O(n)的算法,自己觉得已经不错了,没继续想下去,然后面试官说这不错,但是有没有更好的。我故意随口说一句难道有数学方法,他也随口说了一句不需要数学方法。在这句话的提醒下我直接杀向时间复杂度,那个n是逃不掉的,再一看,logn完全没必要,常数时间就解决了,于是变成了O(n)搞定。我的这道题最终算法,以及前面某智力题最终算法可能都和面试官的标准算法不一样,因为我都讲了两遍他才承认我的算法是对的。
第一个结束之后等了40分钟,才等来了第二个面试官(安排如此,不是迟到)。期间我研究了一下椅子,调整到了一个比较舒服的状态,同时又把空调从30度调到了20度,免得上火。
第二个面试官从年龄,身材和进门的气势一看就是个老手了,坐下之后先对我的信息学竞赛经历和研究生阶段的研究项目表示了兴趣,问了一下之后进入正题。他给的是一个有趣的应用题,抛开故事情节来看,和搜索较为相关,而且是个比较开放性的问题,和前一个人的小算法题完全是两种风格。既然是开放性问题,我也给个开放性的解答,直接给他设计了两三种解决方法,然后边想边说这种哪里好那种哪里不好,这种喜欢什么样的数据,那种在最坏情况可能很坏,等等,因为其实我也不知道整体上说哪种好哪种不好,哪种是他想要的方法,所以只能全抛出来想到哪里说哪里。这时候他对我的某一个方法产生了兴趣,让我写程序,我问他能不能直接用某函数还是要实现一个,他说这东西看着你应该会写,就不浪费时间了,直接用吧。于是我又得寸进尺说能不能做个假定。他问我假如假定不成立,标准做法是什么,我就给他说了两种常见的处理方法,他说ok那就假定成立吧。这时候这个东西已经没什么可写了,总共就六七行代码。然后他继续讲他的故事,把题目变难了,提出了新要求,我说了想法之后他又提出了个新要求,这样麻烦就大了,新的这个问题一看就不容易,赶紧继续第一场的策略,先胡乱说一个可行算法再说。面试官看了我的算法说这东西复杂度不是一般的高啊,我说是啊,这个确实麻烦,于是他提醒我换个角度看看,这句话起了作用,我立刻又想了个算法出来,结果说完之后自己愣了,看上去没啥差别。他说你这俩是不是差不多啊,我想我可不能说差不多,就说新的这个好,肯定比刚才那个复杂度低,他说为什么啊,我说靠直觉,他又问,你的直觉哪里来的啊,我说,新的这个求出来的就是解了,无非是不是最好,老的这个求个东西出来还得先验证是不是正确解。后来想想这个回答很汗,因为这根本不是算法好不好的理由。不过他没追问,让我用新的这个思路继续做下去。我又想了下,给了他一个比较详细而且复杂度不是很高的实现,事实上我也不知道这个实现对不对,不过运气很好,他没有让我证明,没有让我优化,也没有给我找反例,而是让我算复杂度,有了刚才详细实现的分析,这个复杂度就很显然了。答完之后这一面就结束了,从头到尾就是一个问题不断地扩散和变难。后来想想也许我给的算法和标准答案差不多,因为假如我的复杂度高了,他肯定会引导我优化,如果复杂度低了就是错了,肯定会被找反例,如果复杂度一样实现不一样,也许会让我证明。既然什么都没要我做,那么要么是对了,要么是错到无可救药了。
第三个面试官上来就抛题,没有让我自我介绍也没让我讲简历,我只能立刻调整状态接镖。第一个题理论上说是个经典问题,但是我没看过也没做过,于是只能瞎说,结果不小心把面试官搅进去了,很显然,又是因为我的算法和这个问题的经典解不一样,没办法,要是这样就能想到经典解,那也太不容易了。期间他让我程序实现这个算法,在实现期间他继续想我的算法,最后我写完了讲了一遍,他终于说觉得我这个也是可行的,然后我问他经典解是什么,他说了一下,于是我和他讨论了下我的做法和经典做法的区别,并试图让他确信我的是对的。随后又就代码中某个极其细小功能的实现方式进行了讨论,因为他觉得我的实现多了三次运算,而我说我这样可以省一个变量空间(就算你可以立刻想到是什么功能,那也别说……),当然,这些都是细节,无关大局,不过后来我发现这个程序我写了个小bug,当时我和他都没注意到。接着他又让我写程序,一个非常非常简单但是各种细节非常多很容易写错的题目,面试官也说了,这个题目不难,就是繁到家了。于是我就开工,期间瞟了他几眼发觉他在仔仔细细看我的简历,估计是最后要对简历提问。因为代码繁琐,所以我写完之后反复看了两遍,才敢告诉他我写完了。然后对着代码仔细讲了一次,相信他也没找出什么错来。果然之后关于简历内容提了一些。最后他让我提问,可惜的是,前三个面试官都不是做Mobile的(本来第一个是,可是换人了),于是我关心的问题也答不出多少来。
又等了一会等到了最后一个面试官,正如我所猜的,前三个是男的,最后一个想必是女的。这时候快一点了,我已经饿得不行了,估计她都能听到我肚子的叫声。这个面试官上来先就我简历里的Mobile方面的背景进行了询问,让我说说我做过的项目,接着问了几个非常开放的问题,都是实际问题,和无线产品,无线搜索相关度很大,有的甚至是产品方面的问题而不是技术方面的,于是我猜她来头不小(事后知道是这块的tech leader)。问完这些,照常规还是做题。她问我是想写程序还是想算法,我说还是想算法吧,今天写了不少程序了。而且当时饿了懒得动笔——当然这个不能和她说。于是她就给了我一个小算法题。题本身不是老题,但是这类题基本变不出什么新花样了。在她说完题的时候我已经有了想法,而且坚信是最优的。当然我没直接说,而是仔仔细细又推敲了一下,大约一分钟左右,把算法告诉了她。结果她说:这么快就想出来了,看来只能让你把程序实现一下了……我倒,早知道多拖一会。这个算法很简单,但是实现起来并不容易,还是有很多繁琐的细节的(比如一个多路归并败者法,说出来就几个字,但是让你手写完整的就很容易错,这个题也是这样)。我先把笔放在一边,大约想了两分钟确定了实现思路,然后开始写函数,程序基本是一气呵成的,写完之后又自己做了个数据走了一遍,确定没有错误。幸好的是讲程序的时候她也没找到什么问题。这之后是提问时间,好不容易遇到一个做Mobile的,自然我要问问Google China的Mobile到底做什么。也许是最初我讲做的东西的时候她发觉我对这块技术包括市场和政策什么的都挺熟的,于是最后讲得也相对深入,我也能偶尔插上几句表达一下自己的看法。
出来之后,hr说可能要两三周有消息,不过让我先准备成绩单给她送去。这个节骨眼上说两三周,那应该就是年后了出结果了。最后提几个前面没说到我觉得相对又有用的:
1. 面试官的节奏掌握得都很好,即使不断出题,也让人没有什么压迫感,所以除了第一个人第一题我紧张犯晕了之外,别的感觉都正常发挥了,没有什么出门就觉得遗憾的地方。
2. 在我想题的时候,面试官都在不断敲键盘记录着,应该是记录我前一题的答题情况,边问边记,都是这样。每轮最后我写的所有程序和草稿都被拿走,程序应该是会被原样敲进去,而草稿可能是看出你思考过程的一个方法。所以,写程序的时候字好看点比较好,像我这样草书连笔的字写程序,面试官回头看不清楚,我损失就大了。
3. 程序最好用一种不容易出错的语言来写。我今天都用的python,并不是因为我对python熟悉,而是python简单,不容易写错,当然java也成。我绝对不敢用C++,弄堆指针弄个数组就算在电脑里写,就能把我弄晕,更别说纸上了,与其让面试官在这里挑毛病,不如挑个简单的语言,数组,字符串都直接拿来就用,多好。
4. 总的来说题目比我想象的简单很多,不少算法或者数据结构的小题,科班出身的人靠直觉都应该能答得比较靠谱。我觉得唯一一道有挑战性的题目是第二个面试官那个系列问题的最后一问,另外第一个面试官有一个智力题也有点意思。据说Google有一些面试官会问一些变态题,没有遇到这样的题,觉得有点遗憾。
5. 早上去面试的,一定要吃饱早饭,否则面到下午2点,没被问死,先把自己饿死了。后来想想中间有一次休息的时候hr问我饿不饿,当时应该说饿,弄点东西吃的。不过吃一半面试官进来就很狼狈,所以还是早上多吃点好。整体来说,我对自己的这次面试发挥还是比较满意的,觉得答得都还可以——当然,可能面试官会有相反意见。尽管很久没有碰算法了,但是竞赛时候留下的底子还在,没有忘光,这点比较值得欣慰。另外感到不足的一点就是没有一门非常精通的开发语言,基本什么都能写,但是没有能写得特别熟练的,这就使得手写程序的时候感到有些不适,如果还继续做技术的话,就要想办法弥补。还有就是Google会向社招的人要成绩单,所以学校里的成绩也得掂量掂量,我研究生期间成绩还凑合,本科的就有点难看了,所以看来得只开研究生成绩单给他了。最后,鉴于Google发Offer除了面试之外其他随机因素占的比例很大(当然,对我来说是随机因素,对Google来说不是,只不过是我不知道的判断条件罢了),所以面试只是个开始,还很难说会有什么结果。
这篇文章同时在水木社区的求职Google版面发表,文字内容略有区别,不过相同的是,由于签了NDA,我不能透露任何题目相关的内容也不会回答任何相关问题,只能讲讲流程,体会,以及自己的思路而已。另外,本文未经许可请勿转载。
20:16 | 分类: Uncategorized
-
是谁小鸡肚肠?又是谁在流氓?
2007/01/12
首先打开http://blog.sohu.com/robots.txt,看到以下内容:
User-agent: Googlebot
Disallow:
User-agent: baiduspider
Disallow: /
User-agent: Nutch
Disallow:
User-agent: *
Disallow: /
可以看到,搜狐博客禁止了除了Google和Nutch之外一切搜索引擎的抓取,而且还单独把百度拿出来深恶痛绝地鞭尸。这显然是小鸡肚肠的行为,对用户很不负责——因为别人无法通过搜索引擎搜到自己的博客内容。但是且慢,真的如此吗?在各个搜索引擎用site:blog.sohu.com进行搜索。
首先是Google的结果,共有搜索结果417000项,全部是三级域名xxxx.blog.sohu.com这样的首页,任意找一个xxxx.blog.sohu.com去site:一下,可以看到还是都抓到内容的。417000,是一个三级域名的数量,差不多也就是他抓到的搜狐博客的用户数量。
然后是搜狗的结果,2984875个页面,看到的也都是三级域名,随便找个继续site:,可以看到只有首页没有内容,说明sogou就算是在自己家也还是很道德的。至于为什么sohu博客吃里扒外让Google抓却不让自家的sogou抓,那就要去问张朝阳了。
接着给出有道的结果:抱歉,没有找到与 “site:blog.sohu.com” 相关的网页。很好,遵纪守法。
最后隆重推出百度的结果,找到了131000篇,数量不是关键,关键是它的结果从第二篇开始就是内容页面,也许是百度不敢太过分,从外部过来的页面抓了之后看了眼robots.txt,于是不再往下继续,但是好歹,有外链的全给抓了(应该不是全部,否则数量也太少了)。这只有三种可能,一是百度不懂robots.txt的规范,二是百度装作不懂,做了流氓——还好它没全抓,否则就不是流氓而是黑社会了,第三就是只抓外链页面是允许的,我个人感觉这种可能性不大。地震震得w3c网站连不上,所以也确定不了。
看完sohu的,再来看看流氓百度家的http://hi.baidu.com/robots.txt,内容如下:
User-agent: Baiduspider
Disallow:
User-agent: Googlebot
Disallow:
User-agent:
Disallow: /流氓就是流氓,比他强的他不得罪,比他弱的,全部封杀。至于最后那个User-agent为什么不加个*,我就不知道了。这样写是不是符合规范呢?如果不符合,那就是白写,就算页面被人抓了也是白抓。那么来看看site:hi.baidu.com的搜索结果。
首先还是Google的结果,只有96400个结果,都是每个人的首页!而且搜几个朋友的百度空间,发现只有首页没有内容,也就是说,Google也许只抓了每个人的首页,即使它被允许全抓。
然后是有道的结果,和Google一样,只有每个人的首页而没有内容,一共171000条。有道还是挺听话的。至于为什么数量几乎是Google的两倍,很简单,因为Google没有抓中文目录,而有道抓了。正好这里顺路鄙视一下百度这么大个家伙居然还允许用户用中文目录名。
百度自己的结果在这里就没有什么意义了,4980000条,挺多。
最后是搜狗的结果,667756项。结果很眼熟是吧,没错,就是和百度搜搜狐博客的结果非常像,应该是只抓了外部有链接的,没有继续扒拉。
好了,结果出来了,搜狐博客和百度空间,毫无疑问,都不是合适的BSP,因为它们连用户内容被检索的自由都不给。相比之下同样是门户的博客,新浪和网易至少没有从robots.txt上去做手脚。
谁是流氓呢?在能找全robots.txt规范前不下定义,但是比较显然的是,百度流氓的可能性很大,而搜狗的以彼之道还致彼身很可能因为百度自己的写法错误而只能让百度有苦说不出。
21:30 | 分类: Tech
-
Google Pages被盾
2006/11/10
今天上午开始,Google Pages就连不上了,而且貌似不是我的网络问题,全国各地网民都出现了同样的状况,而国外则一切正常。所以不得不说,这又是GFW有组织有计划的灭口行为。
Google Pages连不上对我影响很大,因为我有不少东西放在自己的Pages上,尤其在Google Docs出来之前,我是把它当网络记事本用的。而且最近还搬了些东西上去。现在都看不了了。
来一首国家级诗歌描述这个现象:
** 毫无疑问**
** 中国的网络**
** 是全世界**
** 最自由的**
Update:今天又可以用了(11.13)。总共盾了三天。19:56 | 分类: Uncategorized