搜狗的新玩具 | Yangfan.net

　　今天四处都有人在传搜狗的文学水平评测系统，从URL地址来看，应该是个还处于测试期的服务，或者说是个不小心泄露出来的内部服务(页面Sogou Rank只有2)。从其评测内容来说，更多的是一个** 用词风格拟合系统 **而不是水平评测系统，这两者区别也太大了点。至于它的具体评测方法，胡烈学派著名文人lily同学在测试了一些自己的小说之后作出了如下猜测：分词先，然后统计词频，然后以词为单位怎么着筛选一下，再构造一个特征向量，和数据库里已经存好了的那些特征向量算一个余弦，取最近的三个结果给出来。另外，也有人测试了把文章里空格标点都去掉，测试结果没有改变，这证明判断是基于文字本身的，至少没有说短句多的就像古龙之类的判断，也就是说是用词风格的评价而不是句式的评价。
　　当然，以现在的程度，其功能只能如其页面所言“提供乐趣，让您的生活更加丰富多彩”。另外，还有一些很弱智的问题，例如把金庸的小说扔进去，判断出结果最像鲁迅，其次才是金庸自己，再把路遥《平凡的世界》塞进去，相似度前三名分别是古龙，余华和王朔。这些应该都是训练数据吧，都拟合成这样。另外，由于作家库里没有罗贯中，于是三国演义的测试结果相似度最高的是易中天，这使得我充分怀疑是不是所有诸如刘备曹操新野襄阳这样的专有名词都给匹配进去了。
　　不过总的来说，作为一个新奇的玩具而言，它的设计创意也很能吸引人了——当然，作为一个评测系统，还要多多努力。
　　行文之此，随手把本文上面部分贴入该系统，结果是：易中天92%，余秋雨4%，金庸1% 。如果把那段“另外，由于作家库……给匹配进去了。”删除，再去匹配，结果就是余秋雨64%，刘墉19%，余华2% 。这充分说明了我的猜想极其正确。
　　最后贴一些我自己写的完整的文章的测试结果并进行分析。首先是《星之璨》的第一到第十五回：
　　　　第一回　古龙17%，老舍12%，韩寒10% 　　　　　　第二回　古龙22%，韩寒15%，张恨水12%
　　　　第三回　古龙17%，二月河17%，琼瑶11% 　　　　　第四回　古龙28%，金庸14%，张恨水13%
　　　　第五回　古龙31%，张恨水17%，曹雪芹13% 　　　　第六回　古龙16%，韩寒16%，二月河12%
　　　　第七回　古龙22%，张恨水12%，阿越11% 　　　　　第八回　古龙30%，张恨水16%，曹雪芹12%
　　　　第九回　古龙23%，余华17%，张恨水11% 　　　　　第十回　古龙26%，余华16%，张恨水15%
　　　　第十一回　古龙26%，张恨水13%，阿越12% 　　　　第十二回　古龙27%，张恨水13%，曹雪芹11%
　　　　第十三回　古龙23%，余华12%，张恨水12% 　　　　第十四回　古龙24%，韩寒12%，张恨水12%
　　　　第十五回　韩寒33%，古龙14%，金庸10% 　　简要分析一下，这个结果可以说明这个系统的测试标准和结果还是有迹可循的(当然也能说明我的文章用词也有规律)。不过弄不懂的是为什么古龙总是高居榜首，也许是有一些高度吻合的字词，就好比我在任何文章里加入10遍“刘备曹操新野襄阳”，结果一定是易中天第一一样。
　　再分析一些以前写的，凑合着自己能看得过去留下来的散文杂文什么的，结果也挺不错。标题略去，熟悉的人可以猜猜这些文章各是什么。
　　　甲　余秋雨27%，古龙17%，余华10% 　　　　余秋雨不错，这篇模仿他的，可是古龙哪里冒出来的
　　　乙　易中天36%，贾平凹23%，刘墉14% 　　　搞笑的结果，我不过就是文章里有一个曹操而已……

　　　*　　　　乙删掉一个曹操之后　* 贾平凹36%，刘墉23%，郭敬明11% 　　　丙　郭敬明21%，张小娴13%，林语堂12% 　　凑和吧，证明他作家库里少一个人。
　　　丁　二月河20%，古龙20%，琼瑶19% 　　　　可以接受的结果
　　　戊　古龙23%，郭敬明14%，刘墉13% 　　　　为什么又是古龙……
　　　己　痞子蔡19%，皮皮18%，古龙18% 　　　　这个很荒诞
　　　庚　金子19%，古龙17%，鲁迅12% 　　　　　金子是谁？？
　　上面的结果对于一个测试产品来说不错了，比我想象的好。当然，古龙和易中天这俩，一定是有数据问题。古龙是极其频繁，而易中天，一个曹操就能出36%，已经可以算是黑洞bug了。哪位看到这篇文章的搜狗的总，不如把这个bug报上去然后请我吃个饭……