本体概述

定义

Ontology is defined as: a set of concepts and categories in a subject area or domain, showing their properties and the relationships between them.

本体的定义:客体领域的概念和分类的集合,以及表示它们的属性和之间的关系。

A formal naming and definition of types, properties, and interrelationships of the entities that fundamentally exist for a particular domain.

对存在于特殊领域的客观实体的类型、属性、内部关系的正式命名和定义。

人脑和本体论

虽然对人类来说理解人脑的是怎样工作的是一件有利的事情,但人脑的存储和处理机制比我们已理解的还复杂得多。我们一天能接收成百上千的感知信息的输入,并且如果按bit来处理信息,那么大脑将超过负荷,也不能理解内容并作出有针对的应答。大脑可以过滤输入的感知信息并连续接收其他感知信息。大脑的记忆方式为有3种:

  • 感知记忆
    这是记忆的第一阶段,这个阶段数据以毫秒级的灌入大脑。比如:开车时,我们一路可以看到上千个事物和声音,但我们只利用我们用来开车的部分。因为时间的限制,大部分输入信息都被忘掉了,没本记下来。
  • 短期记忆
    基本都是因为一些临时的目的需要被记忆的信息。比如:收到同事提醒,在房间D-1482有个紧急会议。在我们起身前往会议室的的时间里,这个信息时有意义的,大脑使用短期记忆保留记录。这类信息不会存在较长的时间,但通过一些特殊情况的触发可以转化为长期记忆。
  • 长期记忆
    这些信息可以保留数天甚至一生。比如:我们的名字、生日、社会关系、家庭地址等等。这些信息是基于客体的模式和联系的。一些非生存必须的技能可以掌握较长一段时间,如使用一个乐器,需要存储相关的技法和建立条件发射以实现长期的记忆。

通过眼睛这个感知器官看到一个,大脑会创建一个图和检索所有与这个人相关的信息。
大脑感知过程

信息科学的本体论

电脑和大脑处理信息的基本不同之处是:电脑的输入是字符/数字,大脑的输入是事物。字符串/数字(数据)附上对应的元数据后才是一个完整的事物。

如我们说北京今天早上8:00的气温为66℃,其中66只是的值,没有任务意义。当加上单位过后变得有一定含义了。当加上所有上下文(元数据)后就都表达清楚了。也就是数据->信息->知识的转化过程。

本体的组成

  • 概念(Concepts)
    面向对象编程中的一般事物或实体,如人,员工等等。
  • 数据槽(Slots)
    实体的属性或特性,如生日、性别、地址等等。
  • 关系(Ralationships)
    两个概念间的内在联系,表示为是,包含,如员工是人。
  • 实例(Instances)
    面向对象编程中的对象,如张三是员工类的实例,它是概念的具体表现。本体通过实例表达知识。
  • 操作(Operations)
    管理本体不同组件的所需的函数和规则。面向对象编程中是类的方法。

大数据中的本体

在企业增长实现数据驱动传统的方法是实体建模,并通过ETL实现数据整合。在数据库建模过程中,通过表来表示一个实体,并且这个类通过外键与其他实体关联。但是预先定义的实体是固定结构,在需要修改的时候会变得相对困难。

在大数据领域,分类是在数据读取时而不是数据写入时,这使得实体的结构和建模过程变得高度灵活。即使这样,实体不能标准化,在全网范围管理数据资产依然困难。

为促进网页搜索,谷歌首推知识图谱(knowledge graph)。搜索方式从关键词统计变为基于知识建模,也从字符变为了事物。知识图谱是描述真实世界的对象的一个巨大的本体。

使用大数据技术减少数据建模的困难,数据更好的转变为信息和知识。不同数据源中找到关联实体,通过分类标准,概念映射,最终实现本体。