-
2009-03-13
论文画图工具 - [billjeff:Research]
过去用G.cn和baidu.com都搜过,可是没找到自己想要的理想软件,GNU R下来试用过,但是不怎么符合我的需求。最近几个月都是在跟论文打交道,将前阶段的研究内容和项目进行归纳总结,做了一些实验,需要画散点图之类的,用MS的Excel效果也还行,但是不如国外一些论文里面做的图看上去舒服。索性问了问CS师兄,知道了一些常用画图的工具,小数据量的图用Matlab做,对于极大数据量的图(最后成簇和团的),可以用GNU PLOT做。哎,惭愧,Matlab这么大名鼎鼎的工具,自己居然没发现它的这个功能,也是自己一直想学习学习的工具,可是一直没讲学习的事提上日程。。GNU PLOT还是头一次知道,冠了GNU的大名,应该是个不错的东西。
稍微总结一下做论文的时候涉及图表制作可用的工具吧,多加一些关键词,希望能够被更多人的检索到。论文,制图,数据图,折线图,绘图,架构图。想起前几天关于Twitter的报道,讨论Twitter和Google的,Twitter上,发布一个问题,如果可以被众多好友包括专家看到,而且大家都积极参与回答,那么就很容易找到自己想要的信息,而Google有时候则不能。看看现在Twitter的热度和参与度,也许这个“社会搜索”还真的能成为可能。最好能够对数据添加语义吧,让个人Agent参与进来,帮忙处理信息,例如如果一个问题遇到过并且回答了,那么Agent自动的将答案发给提问者。我喜欢这样子的系统,说白了,我喜欢机器能够理解我,并且理解数据:)说远了,常用的工具有:
- Windows画图:屏幕截图,然后进行简单的处理
- MS VISIO:在发现DIA之前一直用VISIO画各种图,例如体系结构图、模块图、数据流图等等。
- DIA:类似VISIO的画图软件,不过它们最大的区别就是DIA是开源的,原先是Gnome下的一个项目,后来把它移植到Win下了。提供的链接是Win版本的链接(为什么没用Linux?其实我还是一直在斗争究竟平时该用哪个系统,Win+VituralBox或者Linux+WINE+VirtualBox,宋大侠给过建议,不过我还是自己先用着看吧,Linux非常喜欢,特别是在开发的时候,高效、简单,而且系统可以随我定制,最喜欢Debian了;Win下就是没法割舍那些好用的、庞大的软件,像TC、Source Insight,可能有人会说对应的软件Linux都有,由于我目前使用最频繁的还是Win,所以这些软件还不知道。哎,再说再说吧,折腾系统也是挺费时间的,很多时候想想够我使用就行,比如在Win下我要用Linux环境,我会打开Cygwin,或者ssh到自己管理的Linux服务器,或者到Unix-Center的SUN Solaris服务器。跑远了,赶紧拉回来~)
- Excel:做一些数据图,不如后面几个软件看上去美观、专业。
- Matlab:常用的工具。
- GUN PLOT:适合做大数据量分析图。
- GUN R:数理统计分析和制图工具。
Oooops,我知道的就是这些了,希望有所帮助,欢迎补充~return 0 ; -
2009-02-03
Google说:我们会关注结构化数据 - [billjeff:Research]
Read Write Web放出了一篇报道,题为Google: "We're Not Doing a Good Job with Structured Data"。这不仅让我想起了部署Semantic Web的一个思路:通过一些技术对目前的网页数据进行结构化信息抽取,进而改进搜索结果;然后随着Semantic Web研究和工具以及应用的日益完善,利用Semantic Web技术的站点不断出现,结构化的数据日渐丰富;Ok,Web 3.0来了,机器能理解数据的语义。当然,这是一个比较漫长的过程,单指Semantic Web研究工作,还有很多事情要做。
Google内部的表态,至少说明Google开始认真对待数据的语义了。其实大公司的这种关注向来已有,而不仅仅局限于学术界对数据语义的研究。微软、Google等不断地赞助Semantic Web相关的会议,在自己的产品里面不断的加入对结构化数据处理的功能。上面那篇报道还提到了Yahoo的SearchMonkey,这个也是比较早的东西了,印象中快有2年时间了吧。对数据加入语义已经是一个趋势了,前不久听说Digg推出了采用Semantic Web技术的服务,而且这种趋势随着研究和工程开发的深入不断加强,试想机器能够理解数据的含义并且能够完成原先需要由我们自己亲手去做的事情,是一件多么美好的事情。
A little semantic goes a long way,拭目以待吧~
-
2009-01-08
智能系统 - [billjeff:Research]
最近准备一些论文,把语义网络在个人PC桌面管理方面的最新研究进展调研了一下。正式一点的名字是叫语义桌面。自己对这个方向也很感兴趣,有一些相关的论文,但是不是很多。总的来说,就是对个人电脑里面的内容进行语义描述,然后在获得的这堆数据上做处理,提供服务。这么看来,做这个东西,系统设计思路算是比较直观,获取数据,设计核心处理代码(元数据查询、推理),最后就是设计交互式界面。这里的问题是:如何获取语义数据,系统的推理能力究竟有多强。这两个问题其实也是比较相关联的,推理建立数据之上。在设计推理能力上,我目前还没做过实验和测试,在考虑这个问题的时候,需要考虑目前语义网开发的基础设施(工具),要是自己提出的需求超出目前所能获取的这些工具的范畴,那岂不是需要自己去开发一套新的工具,甚至重新定义一套标准,这个工作量就比较大了。还需要考虑性能问题,数据量大的时候(我没测试过,但是性能问题是很显然的),复杂的推理功能势必会和性能搭上关系。当然,还有一个更大的问题,那就是元数据的获取。这个问题,对于语义网开发来说,是一个通用的问题,如何从非结构化的数据当中获取元数据。一个方式是人来做,我一直认为这种方法是可行的,而且我也愿意去做,可是世界上有形形色色的人,有些人就不愿意,何况目前有大量的非结构化数据,因此研究自动获取元数据的方法势在必行,目前在做的,比如从良好的数据源进行入手,像把wikipedia当作数据源,powerset就是拿它做数据源。当然,wikipedia里面更多的是文本,这时候就需要借助NLP、Machine Learning等技术,总之,这是一块比较大的问题。要是能够比较好的解决元数据获取问题,我们用的各种系统会比现在聪明许多:)
当然,事情可以更进一步。正如把各台孤立的电脑连成网络能产生如今的互联网,把孤立的数据放到一块儿也能干很多有意思的事情。系统产生的元数据本身从设计初衷来看,就是为了方便集成、共享。元数据加上各种技术使得系统更加聪明易用,再在所有人的数据当中进行挖掘分析,又能够获取更多有意思的东西,比如做一些推荐了。商品购物网站,例如淘宝,能够利用Data Mining等技术进行商品推荐,那是在计算机不知道数据语义信息基础之上做的事情,要是系统明白数据的意思,试想会有怎样的效果。
无论是什么技术,一个共同点是我们的系统越来越聪明。这种发展趋势是非常明显的,也是很显然的。计算机能完成过去由人来做的事情,从而人从琐碎的事情当中解放出来,可以去关注更加High Level的东西,大家都愿意这样。过去把读书笔记写在纸上,要用到了需要想想究竟记在那个地方了,到现在记在电脑里,要看的时候通过搜索等功能,电脑帮我们完成了很多的事情,提高了效率。而以后,应该是电脑能够明白一些简单的做事流程,理解数据的含义,去完成过去我们需要自己去做的事情。Google的搜索根据个人的喜好定制自己的搜索结果,而不是我用了N回,每次都是一样的结果,即使我对某些结果不会去点击一次。
今晚看Read Write Web,老外在这方面还是做了不少产品的,而且这些产品不少被大的公司使用。在这方面,应该有很大的市场,但是对技术创新也要求比较高。不过没事,有心思了不妨去摸索一把,至少没什么坏处吧:)
return ;
-
2008-04-15
一个C实现的RDF库 - [billjeff:Research]
-
2008-04-15
Oooops, 有人站出来挑战W3C喽。。 - [billjeff:Research]
我也做一回标题党:)
其实是那人做出来一套东西,来挑战W3C现有的一系列关于Semantic Web标准和Vision。晚上看semantic-web@w3.org邮件列表发现的, 那人的理念(博客链接)。Dan出来猛批,TimBL也在那人的博客下留言了。哎,这些东西可以拿出来讨论,不过也不用带着这种口气来到这个邮件列表,牛气哄哄,自然会引起大家不爽。。毕竟RDF/OWL/SPARQL都是W3C这些人弄了好多年的东东,你一下站出来否定。不管谁的东西,最后检验的还是实际应用。讨论是好,好好说,好好说~
我随便看了看那人的博客,感觉他关注的应用和实现还是挺狭窄的,思想还是基于SW的思想,只是给出另外一种实现。对于现有的开发者和研究人员来说,肯定还是采用W3C的吧,至少我用着还OK:) 从基础、实现来说,都是符合情理,除非那人说的东西果真是惊世骇俗,非我等俗人能理解。。不过看他的博客内容也不像。
-
2008-03-04
Protégé 4.0 alpha - [billjeff:Research]
Protege出4.0的Alpha版了,我现在用的是3.2版本,呵呵,够用了。新版本没试用过,等出release版再试试吧。
最近用Jena来进行一些本体操作,发现获得某个class的subclass速度很慢,整个本体也就80多个class,简单的层次关系,居然要3秒左右的时间。下阶段要解决这个问题。
将博客的首页文章用摘要的形式显示,简单明快:)
-
2007-12-21
更新了我的豆瓣 - [billjeff:Research]
今天开题报告,完了之后感觉轻松不少。虽然也没觉得开题很难办,但是这几天自己一直感觉存在压力。晚上回来在实验室待了会儿便回到宿舍,跟宝宝聊天,随便看了些东西。突然想起该整理一下豆瓣里面的内容,顺便看看下阶段想看的书是什么。转了一圈,发现自己想读的书还有好多,同时发现豆瓣真是个好东东。转到某人的主页,很简单,一个个链接,布局很明了,链接都是到一些Web2.0站点,比如他的豆瓣主页,介绍关于他的读书生活,比如Vim专题页面,介绍他的对Vim的学习。主页由一个个元素构成。类似豆瓣这种站点,不禁让我想起RDF... -
2007-12-17
OntoGame - [billjeff:Research]
在昨天的W3C Semantic-Web Mailing List上,有人给出了以游戏的形式获得本体的点子。这个是那个网站:http://www.ontogame.org/
``Since our first experiments in May 2007, we have gained preliminary vidence that (1) users are willing to dedicate a lot of time to those ames, (... -
2007-12-12
偶的PPT - [billjeff:Research]
今天做了开题试讲,很糟糕,PPT做的不好,一是没效果,二是内容组织差,没能表达出自己要表达的意思,问题没扣住,逻辑比较乱。Presentation除了内容,效果也很重要,传达的意思很大部分得靠自己表达。这方面还要多多学习,切记切记! -
2007-12-04
毕业之后还会继续科研吗 - [billjeff:Research]
Social Network很火,看看Facebook就知道了。Social Network同Semantic Web结合也是最近老板和我谈话中了解到的,最近着重从最近几年的paper中寻找线索。其实,仔细想想,facebook的核心是其从众多用户当中获得的各种数据,很明显的一点是,通过数据挖掘,就能够发掘许多有意思的东西。加入SW技术,通过对数据进行处理,然后用规则进行推导,能够发现更多有意思的结论。这里我用了“能够”、“更多”等词汇,只是我的感性判...








