Tchaikov’s Journal

July 3, 2007

关于智能拼音输入法

前段时间和一位同学聊起工作上的事,知道了他在做 TTS (Text To Speech)相关的研究。谈话间说起了 SCIM 的智能拼音输入法,他觉得可以结合自己的研究工作来改进这个输入法,我也曾经有过类似的想法,读研时还读过一部分 scim-pinyin 的源代码。于是一拍即合,两人想着是不是能够在这方面合作改进这个软件。还定了一个简单的计划。不过我知道,一个项目最难的是出现一个原型, 要走的路还很长,评估平台,语料的收集,算法的 survey 都是问题。

我的想法是先了解一下各家开源的拼音输入法的算法,再作打算。上两周通读了 scim-pinyin 之后,把其中的算法给抽象出来了。但是光看一个算法,看不出门道。后来在读了一些关于统计语言模型的论文后,知道了 scim-pinyin 使用的也是 SLM,而且是基于 uni-gram 和 bi-gram 的模型。前两天了解到 Sun 也开发了自己的拼音输入法,同样基于 SLM,叫做 SunPinYin。而且 开源了!真是太好了。不过按照习惯,SunPinYin 的 license 应该是 CDDL。而 CDDL 与 Debian 的 DFSG 不兼容,因此就算有人打包和移植,也很难进入 Debian。

做了这些之后,有了些想法。更多的是觉得见识太少,现在要做的就是再看一两个智能拼音输入法的实现,啃几篇论文。然后想办法把评估平台搭起来,接下来就能非常容易地验证自己的想法了。

2 Comments »

The URI to TrackBack this entry is: http://tchaikov.blogsome.com/2007/07/03/p84/trackback/

  1. 非常支持改进 Linux 下的输入法。虽然现在 scim/fcitx 都还挺好用的,但是还有许多改进的空间啊。

    Comment by pluskid — July 3, 2007 @ 3:21 pm

  2. 有兴趣可以一起加入Sunpinyin的开发!

    Comment by Yong Sun — August 2, 2007 @ 5:19 pm

RSS feed for comments on this post.

Leave a comment

Line and paragraph breaks automatic, e-mail address never displayed, HTML allowed: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <code> <em> <i> <strike> <strong>


Get free blog up and running in minutes with Blogsome
Theme designed by Jay of onefinejay.com