基于动态知识图谱的大规模数据集成解决方案
副标题[/!--empirenews.page--]
在信息高速变化的时代,企业、政府对数据的认知是一个不断变化的过程。通常某个数据集成项目的初期,客户与集成方对数据、业务的认知都是不全面的,比如今天提供了人口库的数据,明天提供车辆数据、后天又提供了卡口数据…… 在这种场景下,如果利用常规的数据集成实现手段,就要调整表结构、改写ETL任务代码、删除已经集成过的数据,并重新进行数据集成。但这在大规模数据集成的场景下,几乎是不能接受的,比如已经集成数百张表、入库10PB数据,如果要重新进行一遍集成,可能需要数以月记。这时,具备数据动态集成的能力就十分重要了。 因此,如何在海量数据之上将动态的数据进行关联融合,同时满足融合快速、融合无信息丢失等业务要求,并将新增的数据快速融入到当前的图谱中,不间断提供知识服务是目前的业界难题。 基于动态知识图谱的数据集成实现方案 常规的数据集成方案通常有以下痛点: 1.只能针对特定行业的数据进行集成,一旦存在多个行业数据交叉融合,需重新定制方案; 2.集成方案不灵活,一旦数据发生变更或有新的数据进入,就需下线业务重新集成,成本巨大。 对此,百分点利用动态知识谱图技术,将模型与数据进行解耦,采用灵活的元数据管理方式,即使元数据变更,已入库数据也无需重新入库。 百分点数据集成实现方案整体架构,包含五个部分: 数据源:原始数据,支持各种类型的数据,如结构化数据,RDBMS、NOSQL、MQ中的数据,也可能是各种半结构化的数据,如HTML、PDF、TEXT等各种文档或音频、视频等多媒体数据。同时,系统也支持配置URL,通过互联网爬取的网页数据。 知识管理:知识管理的核心在于对多源异构的数据建立统一的模型,并将不同的源数据映射到统一的知识模型上,最后配置知识的融合规则与冲突解决规则,以形成统一的知识体系。 知识存储:核心的知识库,原始数据经过离线或实时ETL处理后的转换为知识,并与库中存量数据按照模型的配置进行知识拉通、融合、冲突解决后,供上游系统消费。 后台管理:实现对系统的监控、告警、日志审计以及资源管理、调度管理,并对采集到的数据进行统计分析,以改善整个动态知识图谱的运作效率。 知识应用:支持全局知识库联合搜索、图谱分析、地图分析、知识的多维度分析、多人多机协同分析以及战法分析,除通用的各种分析手段外,还支持特定行业的定制化分析应用。 以知识管理为核心的知识图谱建模 本体模型是数据世界对现实世界的映照,同时也是一种数据的分类、建模方式。在实际项目中,用户面对着海量多源的、异构的数据,非常难以进行数据分析。 为了解决这一问题,本项目引入了本体模型,对异构数据进行统一建模,并在字段级别进行了归一化,多源异构数据源通过抽取、转换、清洗变成统一的本体模型后,可为上层应用或分析人员暴露更加友好的接口,从而提供便利。 值得注意的是,在本项目中,本体模型是由业务人员进行配置的。业务人员可以建立四种类型的本体,包括实体、事件、文档、关系,具体解释如下: 实体:能够独立存在的人或事物,例如: 1. 人物: 凡是可以用于标识“人”的东西,都可以当作人物,包括虚拟的社交账号,实际中的手机号,具体的人等; 事件:有时间属性,视为一种特殊的关系,用于连接实体与实体,实体与文档。本项目中,事件主要指现实生活中的内容,如发邮件、发短信、转发帖子、发表评论等。 文档:文档特指非结构化文档,如邮件中的各种格式的附件,包括但不限于PDF文档、Word文档,以及各种格式的视频、音频。 关系:用于连接实体之间,实体与事件、文档等的相互关系,如人与人之间的亲属关系,人与物品之间的拥有关系,人与事件之间的主导关系。 在创建本体时,不光要指定本体的类型,还需要对本体所包含的字段与对应的字段类型进行配置,从而进行字段级别的归一化。此项目支持的字段类型有date、long、int、double、string和geo。特殊字段还会进行数值的归一化,如时间格式有多种表现形式,这里会转换为统一的形式,方便后续处理。 以车管所数据为例,通过车管所的数据可以建立一种人-车-罚单的本体模型,人与车之间为拥有关系;人与罚单之间通过“闯红灯”事件相连接,而罚单本身则以文档的形式展现。完成本体模型后,就完成了对元数据的描述。
接下来,就需要将真实的数据映射到本体模型上。同时,要在字段级别上对多源异构数据进行归一化。还以车管数据为例,具体过程如下图所示,可以看出,通过本体映射将车管所3张表的数据映射到了 7个本体上(2个实体、3个关系、1个事件和1个文档),并将车主名称和姓名进行了统一,将日期的不同表示方式进行了归一化。 (编辑:南京站长网) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |