Tchaikov’s Journal

July 3, 2007

关于智能拼音输入法

前段时间和一位同学聊起工作上的事,知道了他在做 TTS (Text To Speech)相关的研究。谈话间说起了 SCIM 的智能拼音输入法,他觉得可以结合自己的研究工作来改进这个输入法,我也曾经有过类似的想法,读研时还读过一部分 scim-pinyin 的源代码。于是一拍即合,两人想着是不是能够在这方面合作改进这个软件。还定了一个简单的计划。不过我知道,一个项目最难的是出现一个原型, 要走的路还很长,评估平台,语料的收集,算法的 survey 都是问题。

我的想法是先了解一下各家开源的拼音输入法的算法,再作打算。上两周通读了 scim-pinyin 之后,把其中的算法给抽象出来了。但是光看一个算法,看不出门道。后来在读了一些关于统计语言模型的论文后,知道了 scim-pinyin 使用的也是 SLM,而且是基于 uni-gram 和 bi-gram 的模型。前两天了解到 Sun 也开发了自己的拼音输入法,同样基于 SLM,叫做 SunPinYin。而且 开源了!真是太好了。不过按照习惯,SunPinYin 的 license 应该是 CDDL。而 CDDL 与 Debian 的 DFSG 不兼容,因此就算有人打包和移植,也很难进入 Debian。

做了这些之后,有了些想法。更多的是觉得见识太少,现在要做的就是再看一两个智能拼音输入法的实现,啃几篇论文。然后想办法把评估平台搭起来,接下来就能非常容易地验证自己的想法了。

blogsome 也难逃厄运

Filed under: random-rants

以前 blogsome 就被封锁过一次,我逃窜到了 lj。还好后来警报解除,blogsome 能使了,我溜了回来。窃以为,“木秀于林,风必摧之”。和众多免费的 blog hoster 相比,blogsome 不算是最出名的,提供的服务也不是最好的,我推测应该不会有很多老大选这里,因而中镖的可能性也会降低很多。 但是好景不长,前一阵子,ljblogsome 相继被隔离,成了墙外风景。

“代表最广大人民的利益”。唔,神州大地的 blogger 们恐怕还不算是“最”广大的人民,那我们的利益是由谁来代表的呢?我们自己吧。但是 blog 对我来说,仍然属于很有弹性的活动,觉得犯不上和“有关部门”较劲,也没那个心力。而这种东躲西藏的日子又感觉有些不自在。如果有人振臂一呼,集资搞一次集体诉讼,我一定支持。

人在没办法的时候,总是无责任地幻想有救世主出现吧。难怪人们会创造出这么多功能各异的神佛。

Get free blog up and running in minutes with Blogsome
Theme designed by Jay of onefinejay.com