• 2008-12-23

    一天的工作 - [billjeff:Programming]

    版权声明:转载时请以超链接形式标明文章原始出处和作者信息及本声明
    http://billjeff.blogbus.com/logs/32946142.html

    昨天准备用TiMBL分类的数据,发现速度太慢,就用一个分词工具先对文本数据进行分词,分词结果能够让我的工作稍微加快一些。上网调查了一番,C++的中文分词工具有一些,比较有名的是ICT开发的一个工具,想弄到一个最新版的,上的主页看了看,那边提供相应的dll或者so文件,于是想弄到so文件,然后写一点C++代码调用一下就能达到我要的功能了。点击下载发现需要提供一些信息,还得通过一些后续流程才能下下来,于是作罢。直接去找有没有Python的实现。其实这个页面可以获得免费的版本,不需注册,后来才查到的~ 直接问宋大侠有没有推荐的Python工具,告知可以去CPyUG看看。那我还是直接Google吧,找到一个,叫“Python中文分词”,还不错。可惜一开始用的时候存在一些编码的问题,试了试几种编码,还是不行,于是横下心来,抽出半天研究研究Unicode以及本地化相关的内容,看了看C++和Python对Unicode的支持和使用方法。以下网址被我收录到自己的wiki当中:

    • http://evanjones.ca/unicode-in-c.html
    • http://www.librawill.com/wp/archives/240
    • http://evanjones.ca/python-utf8.html
    • http://www1.tip.nl/~t876506/utf8tbl.html
    • http://www.tbray.org/ongoing/When/200x/2003/04/26/UTF
    • http://stuff.vandervossen.net/archive/weblog/2003/07/unicode_in_python
    • http://www.cl.cam.ac.uk/~mgk25/unicode.html *

    其中最后一个打星的网站推荐一下,介绍比较全面。当然,Google一下可以找到很多相关的资料。

    最后看了看glibc以及libstdc++当中关于Unicode部分的代码实现,又一次深切的感受到Source Insgiht的好用~ 代码没有深入研究,所以没什么感受,等打算好好看完之后再写心得吧。

    试了试Sun的VirtualBox,装了最新版的Ubuntu,一直听说他的界面不错,包管理包含Debian里的apt等工具,接下来打算试试最新的Wine究竟做的咋样了,效果好的话,可以考虑不装Windows系统,直接Linux+Wine,其实自己主要的工作在Linux下都可以完成,而且非常喜欢Linux:)若是不理想,可以考虑Linux+VirtualBox或者Windows+VirtualBox,这两种都行。现在是拿Cygwin来模拟Linux环境,不过用Sun的Unix-Center提供的Solaris环境越来越多了,免费,速度快,适合学习和练手。

    return;


    随机文章:

    杂记 2009-06-10

    收藏到:Del.icio.us




    评论

  • 最近又发现了分词工具nlpbamboo~
  • 你这家伙~把搜索范围限制到CPyUg的google group,关键词用“中文分词”,能找到多篇总结,包括常见算法,也包括多个参考实现。直接google有很多包是挺难找到的。

    Wine及商业版的CrossOffice对IE和Office都谈不上完美兼容,IE有时有字体乱码问题,Office不支持公式编辑。Linux+VirtualBox或者Linux+VmWare如果虚拟机能够直接使用磁盘上的双系统Windows我觉得还是不错的(Mac下反正是可以的)。Win+VirtualBox则不如Win+CoLinux,虽然后者配置稍微麻烦一点。