-
2008-12-23
一天的工作 - [billjeff:Programming]
版权声明:转载时请以超链接形式标明文章原始出处和作者信息及本声明
http://billjeff.blogbus.com/logs/32946142.html
昨天准备用TiMBL分类的数据,发现速度太慢,就用一个分词工具先对文本数据进行分词,分词结果能够让我的工作稍微加快一些。上网调查了一番,C++的中文分词工具有一些,比较有名的是ICT开发的一个工具,想弄到一个最新版的,上它的主页看了看,那边提供相应的dll或者so文件,于是想弄到so文件,然后写一点C++代码调用一下就能达到我要的功能了。点击下载发现需要提供一些信息,还得通过一些后续流程才能下下来,于是作罢。直接去找有没有Python的实现。其实这个页面可以获得免费的版本,不需注册,后来才查到的~ 直接问宋大侠有没有推荐的Python工具,告知可以去CPyUG看看。那我还是直接Google吧,找到一个,叫“Python中文分词”,还不错。可惜一开始用的时候存在一些编码的问题,试了试几种编码,还是不行,于是横下心来,抽出半天研究研究Unicode以及本地化相关的内容,看了看C++和Python对Unicode的支持和使用方法。以下网址被我收录到自己的wiki当中:
- http://evanjones.ca/unicode-in-c.html
- http://www.librawill.com/wp/archives/240
- http://evanjones.ca/python-utf8.html
- http://www1.tip.nl/~t876506/utf8tbl.html
- http://www.tbray.org/ongoing/When/200x/2003/04/26/UTF
- http://stuff.vandervossen.net/archive/weblog/2003/07/unicode_in_python
- http://www.cl.cam.ac.uk/~mgk25/unicode.html *
其中最后一个打星的网站推荐一下,介绍比较全面。当然,Google一下可以找到很多相关的资料。
最后看了看glibc以及libstdc++当中关于Unicode部分的代码实现,又一次深切的感受到Source Insgiht的好用~ 代码没有深入研究,所以没什么感受,等打算好好看完之后再写心得吧。
试了试Sun的VirtualBox,装了最新版的Ubuntu,一直听说他的界面不错,包管理包含Debian里的apt等工具,接下来打算试试最新的Wine究竟做的咋样了,效果好的话,可以考虑不装Windows系统,直接Linux+Wine,其实自己主要的工作在Linux下都可以完成,而且非常喜欢Linux:)若是不理想,可以考虑Linux+VirtualBox或者Windows+VirtualBox,这两种都行。现在是拿Cygwin来模拟Linux环境,不过用Sun的Unix-Center提供的Solaris环境越来越多了,免费,速度快,适合学习和练手。
return;
随机文章:
杂记 2009-06-10新的一年 2009 2009-01-022008求职日志(23) 2008-11-122008求职日志(22) 2008-11-102008求职日志(21) 2008-11-07
收藏到:Del.icio.us








评论
Wine及商业版的CrossOffice对IE和Office都谈不上完美兼容,IE有时有字体乱码问题,Office不支持公式编辑。Linux+VirtualBox或者Linux+VmWare如果虚拟机能够直接使用磁盘上的双系统Windows我觉得还是不错的(Mac下反正是可以的)。Win+VirtualBox则不如Win+CoLinux,虽然后者配置稍微麻烦一点。