-
2009-01-08
智能系统 - [billjeff:Research]
最近准备一些论文,把语义网络在个人PC桌面管理方面的最新研究进展调研了一下。正式一点的名字是叫语义桌面。自己对这个方向也很感兴趣,有一些相关的论文,但是不是很多。总的来说,就是对个人电脑里面的内容进行语义描述,然后在获得的这堆数据上做处理,提供服务。这么看来,做这个东西,系统设计思路算是比较直观,获取数据,设计核心处理代码(元数据查询、推理),最后就是设计交互式界面。这里的问题是:如何获取语义数据,系统的推理能力究竟有多强。这两个问题其实也是比较相关联的,推理建立数据之上。在设计推理能力上,我目前还没做过实验和测试,在考虑这个问题的时候,需要考虑目前语义网开发的基础设施(工具),要是自己提出的需求超出目前所能获取的这些工具的范畴,那岂不是需要自己去开发一套新的工具,甚至重新定义一套标准,这个工作量就比较大了。还需要考虑性能问题,数据量大的时候(我没测试过,但是性能问题是很显然的),复杂的推理功能势必会和性能搭上关系。当然,还有一个更大的问题,那就是元数据的获取。这个问题,对于语义网开发来说,是一个通用的问题,如何从非结构化的数据当中获取元数据。一个方式是人来做,我一直认为这种方法是可行的,而且我也愿意去做,可是世界上有形形色色的人,有些人就不愿意,何况目前有大量的非结构化数据,因此研究自动获取元数据的方法势在必行,目前在做的,比如从良好的数据源进行入手,像把wikipedia当作数据源,powerset就是拿它做数据源。当然,wikipedia里面更多的是文本,这时候就需要借助NLP、Machine Learning等技术,总之,这是一块比较大的问题。要是能够比较好的解决元数据获取问题,我们用的各种系统会比现在聪明许多:)
当然,事情可以更进一步。正如把各台孤立的电脑连成网络能产生如今的互联网,把孤立的数据放到一块儿也能干很多有意思的事情。系统产生的元数据本身从设计初衷来看,就是为了方便集成、共享。元数据加上各种技术使得系统更加聪明易用,再在所有人的数据当中进行挖掘分析,又能够获取更多有意思的东西,比如做一些推荐了。商品购物网站,例如淘宝,能够利用Data Mining等技术进行商品推荐,那是在计算机不知道数据语义信息基础之上做的事情,要是系统明白数据的意思,试想会有怎样的效果。
无论是什么技术,一个共同点是我们的系统越来越聪明。这种发展趋势是非常明显的,也是很显然的。计算机能完成过去由人来做的事情,从而人从琐碎的事情当中解放出来,可以去关注更加High Level的东西,大家都愿意这样。过去把读书笔记写在纸上,要用到了需要想想究竟记在那个地方了,到现在记在电脑里,要看的时候通过搜索等功能,电脑帮我们完成了很多的事情,提高了效率。而以后,应该是电脑能够明白一些简单的做事流程,理解数据的含义,去完成过去我们需要自己去做的事情。Google的搜索根据个人的喜好定制自己的搜索结果,而不是我用了N回,每次都是一样的结果,即使我对某些结果不会去点击一次。
今晚看Read Write Web,老外在这方面还是做了不少产品的,而且这些产品不少被大的公司使用。在这方面,应该有很大的市场,但是对技术创新也要求比较高。不过没事,有心思了不妨去摸索一把,至少没什么坏处吧:)
return ;
-
2008-04-15
一个C实现的RDF库 - [billjeff:Research]
-
2008-04-15
Oooops, 有人站出来挑战W3C喽。。 - [billjeff:Research]
我也做一回标题党:)
其实是那人做出来一套东西,来挑战W3C现有的一系列关于Semantic Web标准和Vision。晚上看semantic-web@w3.org邮件列表发现的, 那人的理念(博客链接)。Dan出来猛批,TimBL也在那人的博客下留言了。哎,这些东西可以拿出来讨论,不过也不用带着这种口气来到这个邮件列表,牛气哄哄,自然会引起大家不爽。。毕竟RDF/OWL/SPARQL都是W3C这些人弄了好多年的东东,你一下站出来否定。不管谁的东西,最后检验的还是实际应用。讨论是好,好好说,好好说~
我随便看了看那人的博客,感觉他关注的应用和实现还是挺狭窄的,思想还是基于SW的思想,只是给出另外一种实现。对于现有的开发者和研究人员来说,肯定还是采用W3C的吧,至少我用着还OK:) 从基础、实现来说,都是符合情理,除非那人说的东西果真是惊世骇俗,非我等俗人能理解。。不过看他的博客内容也不像。
-
2008-03-04
Protégé 4.0 alpha - [billjeff:Research]
Protege出4.0的Alpha版了,我现在用的是3.2版本,呵呵,够用了。新版本没试用过,等出release版再试试吧。
最近用Jena来进行一些本体操作,发现获得某个class的subclass速度很慢,整个本体也就80多个class,简单的层次关系,居然要3秒左右的时间。下阶段要解决这个问题。
将博客的首页文章用摘要的形式显示,简单明快:)
-
2007-12-21
更新了我的豆瓣 - [billjeff:Research]
今天开题报告,完了之后感觉轻松不少。虽然也没觉得开题很难办,但是这几天自己一直感觉存在压力。晚上回来在实验室待了会儿便回到宿舍,跟宝宝聊天,随便看了些东西。突然想起该整理一下豆瓣里面的内容,顺便看看下阶段想看的书是什么。转了一圈,发现自己想读的书还有好多,同时发现豆瓣真是个好东东。转到某人的主页,很简单,一个个链接,布局很明了,链接都是到一些Web2.0站点,比如他的豆瓣主页,介绍关于他的读书生活,比如Vim专题页面,介绍他的对Vim的学习。主页由一个个元素构成。类似豆瓣这种站点,不禁让我想起RDF... -
2007-12-17
OntoGame - [billjeff:Research]
在昨天的W3C Semantic-Web Mailing List上,有人给出了以游戏的形式获得本体的点子。这个是那个网站:http://www.ontogame.org/
``Since our first experiments in May 2007, we have gained preliminary vidence that (1) users are willing to dedicate a lot of time to those ames, (... -
2007-11-25
信息实在是太多了 - [billjeff:Thinking]
在组织各种内容的时候,要是人们再细心一点,多加点metadata,而我的Agent就是不断的按照我预订的规则去抓取内容,这样的话,我不用再去访问别人博客的链接,从而寻找自己感兴趣的博客,也不用通过Google Scholar去搜索想要的论文,Agent帮我找~
本体不能按照自己的意愿随便建,何况建本体本来就是和领域专家密切相关的,有时候应用需要的时候,专家没在身边,本体只能通过利用第三方的本体或者自己弄一个,往往不如自己同领域专家在一起合作出来的好。需要一个本体ISO组织,负责... -
2007-09-27
开始写! - [billjeff:Research]
上午和晚上目的都是明确:学习C++/开发技术和算法,现在唯独感觉下午时间利用率不高,过得不爽。今天下午一开始看Paper,硬盘上放了不少各个年代的SW Paper,下午看了几篇老的,都是讲本体工程(ontology engineering)、本体复用(ontology reuse)、本体评估(ontology evaluation)等,看完没啥感觉,甚是无聊,没精神,知识库那边的本体也先这样了。想想干点啥呢?有点坐不住了。索性去存电费!告知周一、三、五才能存。归来。老板找师兄师姐谈论文。一想,何不自己也开始写!想的都不少了,也挺可行,何不天天写一点,到最后就出来了。就这样,俺也开始写论文了。这种感觉不错,不用到时候花好几天去绞尽脑汁的写啊改啊。
return;
... -
2007-09-20
本体改进 - [billjeff:Research]
目标和步骤明确了,要的事就是按部就班。上阶段建立的本体不行,仅仅是关系到文章、用户的管理,不能体现本体所应有的强大的知识推理和导航功能。昨天和老板的交谈意识到了这一点,明显老板也看出了我前阶段对本体把握的偏颇。知道怎么做了,需要根据领域知识建立一个大的本体。问题来了,领域专家去哪儿找?虽然说我是设计该知识库本体,可是我不是领域专家。老板说去图书馆找找资料。最好的方法是和领域专家沟通合作,可是一是合作单位没在北京,沟通就不方便,要坐到真正的沟通所付出的成本也不低。索性自己学习一把吧,作为第一版本体,要是做出来可行就请专家和用户提出意见改进。这回我又要努力学习一个跟我毫无相关的学科知识。语义网推广难吧,科研人员和开发者,仅仅懂得技术还不行,还需要领域专家,可能这和软件的需求分析类似。不过语义网开发同样需要需求分析,还要同领域专家合作,做一个像样的系统建立本体可能还需要不少时间,相关的工具虽然不... -
2007-09-12
把下阶段的工作安排好了 - [billjeff:Research]
系统各个模块都大致想好,由于系统本身结构比较清晰,难度不大。核心的问题没有解决好,就是对于知识库本身的分析不够透彻,需求做的不够详细,这就导致本体设计的时候类的层次少,类之间的联系也少,知识之间的交错性没体现出来,这就从根本上影响最后的效果。不过作为第一步还是先做出demo来。今天看了IEEE Intelligent Issue 3 2007的一篇文章,将SW应用在公共健康信息网,想法还是那样,无非是通过本体描述,对知识结构化,出来的效果是各种知识联系,加上可视化,效果不错。对于这种知识量比较大的项目,再有个领域专家,建好本体应该不难,而且本体有比较复杂的结构,核心做好了,外面的就可以慢慢来,最后的东东也是很好的。总想能够到Agent那种地步,嘿嘿,慢慢来吧:) ...








