Tchaikov’s Journal

July 18, 2008

续“随机抱怨”

Filed under: Debian, Input-Method

好消息和坏消息。好消息是 SunPinyin 进入了 Debian NEW queue,坏消息是卡在那里了。

不能接受的原因是 SunPinyin 输入法的 SLM 是以数据的形式存在的,而这些数据并没有提供源文件。这些数据是从原始语料和词库训练得出的结果。大家可能猜得到,原始语料往往是很大的,或者是在线的,而且 license 一般是不符合 DFSG 的。比如:

所以根本不可能放在发布的源代码包里面。但是 ftpmaster 对这个似乎有所疑虑。发信解释之后,还没有下文。所幸我的 sponsor, foka 对 SunPinyin 比较了解,他很明白这些数据文件的角色和由来。但是最终把关还是 ftpmaster。到现在,SunPinyin 已经在 NEW queue 里驻留一周了。

不知道接下来怎么发展。让我们一起等吧。

January 21, 2008

Sun is releasing SunPinyin’s source code under a dual-licensing scheme of CDDL and LGPLv2.1

太高兴了,啥都不说了。


http://mail.opensolaris.org/pipermail/g11n-dev/2008-January/000027.html

January 1, 2008

scim-sunpinyin on Mandriva

Filed under: Input-Method

刚才发现 Mandriva 把 scim-sunpinyin 打包了。虽然有些问题,不过还是很高兴啊啊啊…… :-)

SunPinyin 是个很不错的输入法,如果能有更多的人能认识它,使用它,甚至改进它,它的价值就能得到更好地体现了。

September 22, 2007

scim-sunpinyin_0.1 progress: 31.415%

Filed under: GNU/Linux, Input-Method

I started working on a wrapper around SunPinyin one week ago. The scim platform, can now load my wrapper (which named scim-sunpinyin 8-) and display the logo of SunPinyin.

But it still can’t switch between full/half punctuate, full/half simbol (it’s not typo) or en/cn input mode, not to mention inputing Chinese characters correctly display the aux string and preedit string. Anyway, I got to know how to debug scim input method engine:

  1. configure scim and the input engines with debug enabled: –enable-debug
  2. pass the arguments for scim-launcher after `–’ when launch scim. Actually, the loading chain looks like: scim -> scim-launcher -> scim-frontend, each module/executable in this chain will just pass the argument after `–’ to the next one.
    $ scim -e sunpinyin -- -v 7 -m backend,imengine,lookuptable -o filename 

Since the debug options should be invisible to end users, they are only `documented’ in the source of scim_launcher.cpp and scim_debug.cpp.

Anyway, even with the help of debug facility provided by SCIM, it’s still a bit difficult to debug an input method engine.
scim-sunpinyin

July 3, 2007

关于智能拼音输入法

前段时间和一位同学聊起工作上的事,知道了他在做 TTS (Text To Speech)相关的研究。谈话间说起了 SCIM 的智能拼音输入法,他觉得可以结合自己的研究工作来改进这个输入法,我也曾经有过类似的想法,读研时还读过一部分 scim-pinyin 的源代码。于是一拍即合,两人想着是不是能够在这方面合作改进这个软件。还定了一个简单的计划。不过我知道,一个项目最难的是出现一个原型, 要走的路还很长,评估平台,语料的收集,算法的 survey 都是问题。

我的想法是先了解一下各家开源的拼音输入法的算法,再作打算。上两周通读了 scim-pinyin 之后,把其中的算法给抽象出来了。但是光看一个算法,看不出门道。后来在读了一些关于统计语言模型的论文后,知道了 scim-pinyin 使用的也是 SLM,而且是基于 uni-gram 和 bi-gram 的模型。前两天了解到 Sun 也开发了自己的拼音输入法,同样基于 SLM,叫做 SunPinYin。而且 开源了!真是太好了。不过按照习惯,SunPinYin 的 license 应该是 CDDL。而 CDDL 与 Debian 的 DFSG 不兼容,因此就算有人打包和移植,也很难进入 Debian。

做了这些之后,有了些想法。更多的是觉得见识太少,现在要做的就是再看一两个智能拼音输入法的实现,啃几篇论文。然后想办法把评估平台搭起来,接下来就能非常容易地验证自己的想法了。

Get free blog up and running in minutes with Blogsome
Theme designed by Jay of onefinejay.com