基于动态知识图谱的大规模数据集成解决方案

发布时间：2020-05-31 04:07:10 所属栏目：传媒来源：站长网

导读：副标题#e# 在信息高速变化的时代，企业、政府对数据的认知是一个不断变化的过程。通常某个数据集成项目的初期，客户与集成方对数据、业务的认知都是不全面的，比如今天提供了人口库的数据，明天提供车辆数据、后天又提供了卡口数据在这种场景下，如果利用常

副标题[/!--empirenews.page--]

在信息高速变化的时代，企业、政府对数据的认知是一个不断变化的过程。通常某个数据集成项目的初期，客户与集成方对数据、业务的认知都是不全面的，比如今天提供了人口库的数据，明天提供车辆数据、后天又提供了卡口数据…… 在这种场景下，如果利用常规的数据集成实现手段，就要调整表结构、改写ETL任务代码、删除已经集成过的数据，并重新进行数据集成。但这在大规模数据集成的场景下，几乎是不能接受的，比如已经集成数百张表、入库10PB数据，如果要重新进行一遍集成，可能需要数以月记。这时，具备数据动态集成的能力就十分重要了。因此，如何在海量数据之上将动态的数据进行关联融合，同时满足融合快速、融合无信息丢失等业务要求，并将新增的数据快速融入到当前的图谱中，不间断提供知识服务是目前的业界难题。

基于动态知识图谱的数据集成实现方案

常规的数据集成方案通常有以下痛点：

1.只能针对特定行业的数据进行集成，一旦存在多个行业数据交叉融合，需重新定制方案；

2.集成方案不灵活，一旦数据发生变更或有新的数据进入，就需下线业务重新集成，成本巨大。对此，百分点利用动态知识谱图技术，将模型与数据进行解耦，采用灵活的元数据管理方式，即使元数据变更，已入库数据也无需重新入库。百分点数据集成实现方案整体架构，包含五个部分：

数据源：原始数据，支持各种类型的数据，如结构化数据，RDBMS、NOSQL、MQ中的数据，也可能是各种半结构化的数据，如HTML、PDF、TEXT等各种文档或音频、视频等多媒体数据。同时，系统也支持配置URL，通过互联网爬取的网页数据。

知识管理：知识管理的核心在于对多源异构的数据建立统一的模型，并将不同的源数据映射到统一的知识模型上，最后配置知识的融合规则与冲突解决规则，以形成统一的知识体系。

知识存储：核心的知识库，原始数据经过离线或实时ETL处理后的转换为知识，并与库中存量数据按照模型的配置进行知识拉通、融合、冲突解决后，供上游系统消费。

后台管理：实现对系统的监控、告警、日志审计以及资源管理、调度管理，并对采集到的数据进行统计分析，以改善整个动态知识图谱的运作效率。

知识应用：支持全局知识库联合搜索、图谱分析、地图分析、知识的多维度分析、多人多机协同分析以及战法分析，除通用的各种分析手段外，还支持特定行业的定制化分析应用。
由上可知，整个架构中最重要的部分为以知识管理为核心的知识图谱建模方式，以及知识存储为核心的动态存储设计，本文也将着重对以上两点进行解读。

以知识管理为核心的知识图谱建模

本体模型是数据世界对现实世界的映照，同时也是一种数据的分类、建模方式。在实际项目中，用户面对着海量多源的、异构的数据，非常难以进行数据分析。

为了解决这一问题，本项目引入了本体模型，对异构数据进行统一建模，并在字段级别进行了归一化，多源异构数据源通过抽取、转换、清洗变成统一的本体模型后，可为上层应用或分析人员暴露更加友好的接口，从而提供便利。值得注意的是，在本项目中，本体模型是由业务人员进行配置的。业务人员可以建立四种类型的本体，包括实体、事件、文档、关系，具体解释如下：

实体：能够独立存在的人或事物，例如：

1. 人物: 凡是可以用于标识“人”的东西，都可以当作人物，包括虚拟的社交账号，实际中的手机号，具体的人等；
2. 物品: 包括真实的手机，电脑，各种真实物品；也包括IM工具，各类软件等虚拟物品；
3. 组织: 包括真实的各类组织，如ISIS组织，政府单位，慈善组织等各类真实的组织；也包括QQ群，聊天室等各类虚拟组织；
4. 位置: 包括某具体的地理位置，如政府大楼；也包括LAC地址，IP地址等虚拟空间。

事件：有时间属性，视为一种特殊的关系，用于连接实体与实体，实体与文档。本项目中，事件主要指现实生活中的内容，如发邮件、发短信、转发帖子、发表评论等。

文档：文档特指非结构化文档，如邮件中的各种格式的附件，包括但不限于PDF文档、Word文档，以及各种格式的视频、音频。

关系：用于连接实体之间，实体与事件、文档等的相互关系，如人与人之间的亲属关系，人与物品之间的拥有关系，人与事件之间的主导关系。

在创建本体时，不光要指定本体的类型，还需要对本体所包含的字段与对应的字段类型进行配置，从而进行字段级别的归一化。此项目支持的字段类型有date、long、int、double、string和geo。特殊字段还会进行数值的归一化，如时间格式有多种表现形式，这里会转换为统一的形式，方便后续处理。

以车管所数据为例，通过车管所的数据可以建立一种人-车-罚单的本体模型，人与车之间为拥有关系；人与罚单之间通过“闯红灯”事件相连接，而罚单本身则以文档的形式展现。完成本体模型后，就完成了对元数据的描述。

接下来，就需要将真实的数据映射到本体模型上。同时，要在字段级别上对多源异构数据进行归一化。还以车管数据为例，具体过程如下图所示，可以看出，通过本体映射将车管所3张表的数据映射到了 7个本体上（2个实体、3个关系、1个事件和1个文档），并将车主名称和姓名进行了统一，将日期的不同表示方式进行了归一化。

（编辑：南京站长网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!

1/6

尾页

寄大包裹选什么百世快	电脑手机多端登入随便
Meta开源全新移动端AI	腾讯会议网络招聘好帮