1. 产品简介

1.1 产品概述

城市操作系统是一个开放的、组件化的、标准化的集采集、管理、分析挖掘、人工智能和服务为一体的智能城市大数据AI使能平台。

城市操作系统支撑海量、多元异构数据的从采集汇聚,时空数据存储,数据治理,AI挖掘分析,数据共享开发,数据可视化等全生命周期解决方案;城市操作系统提供多种人工智能应用,用户可以直接使用预置典型应用查看结果,也可以通过选择组件灵活配置,满足不同应用场景需求。

城市操作系统架构城市操作系统架构

1.2 产品特点

城市操作系统集数据存储,查询,分析,特征提取,调度,模型,可视化为一体,在对城市应用和时空数据的特点研究基础上,提供面向城市计算场景的一体化、并行化的高效时空数据挖掘和模型应用平台。

数据标准化

城市操作系统面向海量时空数据特点,创新性的提出将时空数据抽象成六种标准的时空数据模型,分别是空间静态点数据、空间点时序数据、时空动态点数据、空间静态网数据、空间静态时间动态网数据、时空动态网数据等。

平台通过将城市中万千复杂数据归类为6种时空数据模型,并结合20多种独特的时空索引方式,极大的提高数据储存和管理效率,使时空数据查询速度相比常规索引方式提升了百倍。

算法模块化

城市操作系统面向城市计算领域应用需求,通过归纳差异化应用背后的时空AI算法,为用户提供可积木式叠加的模块化时空AI模型设计服务。将城市计算前沿的研究成果落地于平台的同时,极大的降低了时空AI算法的应用门槛,大幅提高算法复用率,为政府和企业节约大量研发成本。

平台生态化

城市操作系统基于开放式架构设计和统一账户管理体系,兼容城市管理部门以及其他智能城市服务商共同开发使用,包括云服务公司、智能硬件公司、行业解决方案提供商等。平台自研的数字网关技术,通过用户隐私保护的联合建模机制和多源数据融合算法,可以在用户数据安全的前提下,实现企业与企业之间的互通、城市与城市之间的数据共联。旨在打破城市时空数据应用因职能分工所造成的信息壁垒,实现数据在知识层面的互联互通,强化职能部门之间的协同性,提高城市时空数据应用的整体性,与合作伙伴共建开放、良性的新型智慧城市生态。

场景多样化

城市操作系统可以高效支撑跨多个领域的垂直应用,既为城市提供点线面结合的智能城市顶层设计,也为城市环境、交通、规划、能耗、商业、安全、医疗、信用和电子政务等城市应用定制智能解决方案,为城市打造从合理规划、到高效运维、再到精准预测的可持续发展生态。

2. 快速体验

1、访问城市操作系统官网,点击立即体验

2、按提示填写申请信息;

3、完成信息填写后,待管理员审核后即可登陆平台。

3. 时空数据集成

3.1 模块简介

由于各个部门业务系统的建设水平、建设单位、建设思路等参差不齐,数据源存在各式各样的差异,因此,针对海量异构数据资源的采集需求,需要建立专门的数据采集汇聚系统。

平台通过数据采集模块,使用针对化的采集工具,主动实现对现有业务系统的数据采集。各单位无需额外投入人力物力进行开发工作,便可实现数据的安全、可靠上报。

通过数据集成模块,可以从不同结构的数据源中抽取数据,对数据进行复杂的加工转换,最后将数据加载到各种存储结构中。例如实现从多个异构的数据源(不同数据库、结构化文件等)抽取数据,并加工成统一的数据格式,最后加载到数据仓库中。

数据集成平台基于 Java 技术和标准数据库接口(JDBC等),支持与各种主流数据库、开源数据库、FTP文件的接入。

3.2 数据源管理

平台通过数据源管理功能实现源端与目标端的数据库连通,完成数据采集汇聚的第一步。支持包括 数据库、Oracle、SQL Server、Postgresql、DB2、MongoDB 、FTP、csv、本地数据等不同类型的十余种数据源连接的创建及管理功能。

数据源管理页面数据源管理页面

1、关系型数据源

选择关系型数据源选择关系型数据源
配置关系型数据源页面配置关系型数据源页面

2、平台支持与非关系型数据库Mongodb的连通

非关系型数据源配置页面非关系型数据源配置页面

3、平台支持与FTP文件存储服务器的连通

FTP文件存储服务连通配置页面FTP文件存储服务连通配置页面

实现数据源连通即实现了将源头数据表数据采集至平台的第一步。平台支持数据源连通性校验,当源数据库不能被网络访问、源数据库被防火墙禁止、数据库域名无法被解析、源数据库无法启动等情况出现时,平台自动进行连通性测试失败的预警。

3.3 离线同步

数据库同步采集功能主要包括:源数据库配置、目标数据库表配置、字段映射关系配置、调度配置、采集监控等功能。

数据库同步配置主要配置并定义源数据库表和目标数据库表之间的复制关系和执行规则。可定义为定时自动执行和手动执行;数据复制方式可选择:增量复制、完全复制等;数据库同步执行时按照定义好的配置信息,使用数据库复制工具定时或手动的执行数据复制同步操作,在执行过程中用户可以随时监控执行过程,并对执行规则进行调整,同时支持对数据敏感性进行标识和配置。

平台数据库ETL即离线同步方式,基于同步工具工具,实现传统数据库与Hadoop之间数据同步,加快数据传输速度同时保证容错性。平台离线数据同步主要包括全量同步和增量同步两种方式。

整体流程如下:

1、对于离线同步,平台以任务方式发起同步流程,第一步需配置任务相关基本信息,如任务名称、任务描述、数据源类型等,数据库ETL支持的数据库类型包括数据库、sql server、oracle、postgresql、db2、mongodb等,如下图:

同步任务基本信息页面同步任务基本信息页面

2、配置数据来源和存储目标

将传统关系型或非关系型数据库中的数据采集至平台,选择需要同步的数据源表,及采集至平台后的存储路径。支持将所联通的数据库中单表、部分表及整库全部采集至平台,落盘至平台数据仓库ods层,如下图:

配置数据来源和存储目标页面配置数据来源和存储目标页面

3、配置源端和目标端字段映射关系

定义需要采集的数据来源和存储目标后,核心即配置二者之间的映射关系,包括数据表字段名称、字段类型、字段描述等,如下图:

字段映射关系配置页面字段映射关系配置页面

4、配置同步规则

对于传统关系型数据库,平台支持全量采集和增量采集两种方式,方便用户灵活选择;对于一定规模内的数据量,且其全量数据更新较为频繁的数据库表,通常采用全量同步方式,即每个周期均将源表的全量数据采集至数据仓库,支持覆盖原始数据减少垃圾数据占用存储空间;对于数据量规模较大,且历史数据更新频率较低的数据库表,通常采用增量同步方式,通过配置增量字段,平台自动将每个周期内新增或编辑更新过的数据采集至数据仓库目标表不同分区内

当单次任务需同步的数据表较多,或进行整库同步时,平台支持用户根据机器资源灵活配置并发度,保障资源合理利用的情况下高效进行采集任务。如下图:

全量同步规则配置页面全量同步规则配置页面
增量同步规则配置页面增量同步规则配置页面

5、确认信息,完成创建,即可随时启动采集任务。如下图:

确认信息完成任务创建页面确认信息完成任务创建页面

3.4 实时同步

通常对于实时性要求较高的数据,采用实时方式接入可以保障其可靠性、实时性。平台实时数据同步可以通过在客户端部署SDK或API接口调用的方式,实现将实时数据流同步至平台的kafka队列中,之后您可以将实时数据流落地到磁盘或者进行实时数据流消费。

平台支持监控数据源同步记录:对于已连通的数据源,平台支持您随时查看数据源同步进度,包括数据同步条数、当前同步数据量、最后同步时间等等,方便您随时监控实时数据流。

实时采集管理页面实时采集管理页面

1、 SDK方式

• 对于实时数据采集

平台支持以任务方式发起采集流程,在实时采集管理页面点击新建实时任务,输入任务基本属性,包括任务名称、任务描述,同步方式选择SDK,对于任一条实时同步任务,支持将数据落盘至HDFS,至Hive表,或者只在Kafka中缓存;

平台支持以任务方式发起采集流程,在实时采集管理页面点击新建实时任务,输入任务基本属性,包括任务名称、任务描述,同步方式选择SDK,对于任一条实时同步任务,支持将数据落盘至HDFS,至Hive表,或者只在Kafka中缓存;

新建SDK方式实时采集任务页面新建SDK方式实时采集任务页面

• 任务配置完成后,即可在线配置该任务得SDK工具包,配置信息项包括SDK名称、运行环境、数据源类型、数据采集方式以及文件路径,如下图:

SDK配置页面SDK配置页面

• SDK配置完成后,即可将该实时任务启动,后台自动启动该任务在Kafka中创建的Topic,并下载SDK工具包,如下图:

SDK工具包下载页面SDK工具包下载页面

• 在客户端部署端部署SDK并启动后,数据流即可发送至平台Kafka对应Topic,支持随时查看数据同步记录,如发送数据流量、数据条数、数据量以及最后更新时间等,支持对发送数据的任意IP进行拒收操作,拒收后,数据将被过滤在Kafka之外,同时支持拒收后再次恢复。

数据同步记录页面数据同步记录页面

• 对于任一实时同步任务,可随时查看该任务的运行详情,包括数据读取总量、数据存储总量、同步比、数据读取速率、数据存储速率、脏数据量、延时情况等等,后面将对任务运行详情进行具体介绍。

2、API接口采集方式

多数情况下,各单位搭建的应用系统,不便于通过直连业务数据库或前置数据库的方式来实现数据交换,需要通过接口方式,并且按照一定的数据转换和数据更新规则,把数据更新到平台。

多数情况下,各单位搭建的应用系统,不便于通过直连业务数据库或前置数据库的方式来实现数据交换,需要通过接口方式,并且按照一定的数据转换和数据更新规则,把数据更新到平台。

实时采集流程图实时采集流程图

• 对于实时数据采集,平台支持以任务方式发起采集流程,在实时采集管理页面点击新建实时任务,输入任务基本属性,包括任务名称、任务描述,同步方式选择API服务调用,对于任一条实时同步任务,支持将数据落盘至HDFS,至Hive表,或者只在Kafka中缓存;

平台实时同步任务中,支持配置一定得字段处理或转换规则,如空值过滤、空值填充等,如下图:

新建接口采集方式实时任务页面新建接口采集方式实时任务页面

• 任务配置完成后,即可在线启动API,如下图:

API启用页面API启用页面

• API启用后,平台自动动态生成接口文档,用户可随时在线下载接口文档,文档中具体描述了关于接口参数、接口使用步骤、接口规范等,方便高效调用平台接口发送数据;

• 请求接口成功后,数据流即可发送至平台Kafka对应Topic,支持随时查看数据同步记录,如发送数据流量、数据条数、数据量以及最后更新时间等,支持对发送数据的任意IP进行拒收操作,拒收后,数据将被过滤在Kafka之外,同时支持拒收后再次恢复;

数据同步记录页面数据同步记录页面

• 对于任一实时同步任务,可随时查看该任务的运行详情,包括数据读取总量、数据存储总量、同步比、数据读取速率、数据存储速率、脏数据量、延时情况等等,下面将对任务运行详情进行具体介绍。

3、运行详情监控

在平台中创建实时同步任务并启动后,平台Kafka组件中会创建对应的Topic用于接收该任务的实时数据流,对于需要落盘的任务数据还会同步至分布式文件系统(HDFS),或Hive表,因此平台提供了数据流读取和落盘的实时监控体制,保障用户随时了解同步进度及详情。

平台监控内容包括该Topic的数据读取总量、数据存储总量、同步比(存储总量/读取总量)、数据读取速率、数据存储速率、由用户设置的过滤规则而产生的脏数据数量。

平台支持多个时间范围内的统计情况进行对比分析,支持查看最近三小时、最近一天、最近三天、最近七天,方便随时掌握数据读取和存储变化趋势。如下图:

运行详情页面运行详情页面

4. 数据开发

数据开发支持用户以SQL等脚本快速在线查询城市操作系统数据库中的数据,提升用户数据决策效率,并且为时空任务调度数据开发组件提供脚本使用支持,帮助用户更好地专注于数据价值的挖掘与探索。

数据开发界面由以下几个部分组成:

1、左上方脚本管理区域,提供脚本的新建、删除、选择和搜索功能;

2、中上方为脚本开发区域,用户可在该区域书写相关SQL语句,点击执行即可开始执行SQL,选择保存可以覆盖原有脚本文件,点击另存为可以新建该SQL脚本;

3、右上方是默认函数区域,平台预置了很多用户常用的SQL函数,用户可直接单击,即可在脚本开发区域生成该函数;

4、右下方为库表概览区域,用户可在该区域预览到相关的数据库表及字段,从而可以更加便捷地在脚本开发区域书写关于对应库表及字段的SQL语句;

5、中下方为执行结果展示区域,用户可在该区域看到SQL执行的结果或报错信息,并且提供了下载功能,便于用户导出所需要的数据;

5. 实时计算

实时计算是提供实时流数据计算服务的通用计算模块。

实时计算作为一类针对实时数据的计算模型,可有效地缩短全链路数据流时延、实时化计算逻辑、平摊计算成本,最终有效满足实时处理大数据的业务需求。

操作过程中分为以下几个步骤:

1、进入城市操作系统“实时计算”功能,点击“新建”

2、选择实时计算任务类型:目前提供Spark Streaming SQL、Spark 程序、Flink程序、Flink SQL四种类型可供选择;

消费数据源:数据源来自实时同步,实时计算消费实时同步集成的数据 ;

目标表:每一条实时计算任务的计算结果,可以被直接写入目标库表进行数据存储。

Spark Streaming SQL、Flink SQL:在线SQL编辑平台编写structured streaming SQL、Flink SQL,快速便捷实现业务逻辑。

Spark程序/Flink程序:基于Spark Streaming API的自定义Jar包作业/基于Flink API的自定义Jar包作业,用户可根据下载的示例文件自行编写jar文件并上传,自定义实现业务逻辑。

启动实时计算任务:点击启动、并配置运行资源,实时计算任务根据用户定义的业务逻辑对实时同步集成的数据进行计算处理。

运行详情

在运行监控页面可以实时查看任务运行详情,包括数据量、线程数以及反压状态。

在执行记录页面可查看实时计算任务每一次操作的运行记录,并可查看运行日志以及任务详情:

6. 任务调度

时空数据处理计算是针对城市海量数据的常见场景,用户可以根据需求,通过调度系统灵活方便的配置作业之间的依赖关系实现计算任务流执行,系统支持数据同步、数据开发、数据脱敏等多种类型组件化作业,包括spark、python、shell、java、hive、mr等主流大数据任务及10余种数据脱敏算法,满足用户各种场景需求。

时空数据处理计算是针对城市海量数据的常见场景,用户可以根据需求,通过调度系统灵活方便的配置作业之间的依赖关系实现计算任务流执行,系统支持数据同步、数据开发、数据脱敏等多种类型组件化作业,包括spark、python、shell、java、hive、mr等主流大数据任务及10余种数据脱敏算法,满足用户各种场景需求。

6.1 工作流管理页面

通过左侧菜单栏【时空任务调度】进入工作流管理页面查看历史工作流任务,如下图:

工作流管理页面工作流管理页面

• 点击新建工作流,输入工作流名称、描述,选择创建类型后,可以在线创建一条工作流任务;

• 点击编辑按钮,可以查看该工作流的详细信息,并对工作流描述内容进行编辑修改;

• 点击编辑按钮,可以查看该工作流的详细信息,并对工作流描述内容进行编辑修改;

• 点击工作流名称,页面将跳转至该任务的工作区,您可以对该工作流的作业组件机器配置信息进行详细设计,具体操作如下:

6.2 工作流设计

任务调度的关键即在于工作流的设计,城市操作系统支持您在一个工作流中创建一组具有依赖关系的大数据任务,您不仅可以通过点选的方式自定义需要执行的组件,而且可以在模板基础上做进一步的任务流设计。

a.点击工作流名称,进入工作区;

b.根据实际应用场景,选择需要的组件, 配置任务属性和依赖关系,配置完成后点击立即执行,平台即可自动执行工作流任务;

c.执行成功的工作流,用户可以实时查看各个组件的运行进度,包括运行开始时间、结束时间、运行结果等。

运行进程查看运行进程查看

6.3 实例管理

工作流任务每执行一次会在平台生成一条实例,记录任务执行过程。

1)在工作流管理页面,点击实例管理,可以查看该工作流任务的所有历史实例,如下图:

实例管理页面实例管理页面

2)点击实例ID,页面跳转至本次实例详情页,即工作流中每个组件的执行信息,如下图:

组件执行情况展示页面组件执行情况展示页面

3)您还可以通过点击查看日志,查看该组件执行过程记录。

6.4 资源管理

时空任务调度模块资源管理主要实现对数据开发组件作业依赖的管理,包括组件的上传、编辑、删除等操作,为数据开发组件配置作业依赖提供基础。

通过工作区进入资源管理版块,查询可用资源,同时,可以通过点击展开操作按钮,进入资源管理页面,如下图:

资源管理页面资源管理页面

点击上传按钮,可选择本地资源上传至平台资源库,供数据开发组件使用;

点击编辑按钮,可以编辑该资源的描述信息;

若某条资源被引用次数为0,则可以通过删除按钮将该资源从平台资源库中删除,若已被引用,需要解除引用之后方可删除。

6.5 组件集

城市操作系统的任务调度模块提供丰富的组件集,随意点选需要的组件,并对组件进行配置和组件工作流的设置,而且可以在模板基础上做进一步的任务流设计。具体组件集列表如下

6.5.1 数据集成组件

数据同步组件是将数据集成功能组件化,用户可以通过一站组件配置高效完成数据同步功能。

数据同步组件配置包括:

• 组件属性:作业名称、作业类型、所属工作流;

• 数据来源及目标:数据源类型、数据源名称、数据表,目标数据库类型、目标数据库以及目标数据表;

• 字段映射:包括字段名称、字段类型的映射关系;

• 同步方式:支持全量同步和增量同步两种方式。

6.5.2 数据开发组件

1、Java组件支持您直接在web端上传Jar包来完成数据处理工作。

2、Shell组件支持您直接在web端上传shell脚本来完成数据处理工作。

3、Hive组件支持您直接在web端上传HIVE SQL脚本来完成数据处理工作。

3、Hive组件支持您直接在web端上传HIVE SQL脚本来完成数据处理工作。

5、Spark组件支持您直接在web端上传spark 应用Jar包来完成数据处理工作。

6、mr组件支持您直接在web端上传mr程序Jar包来完成数据处理工作。

6.5.3 时空动态网数

1、 轨迹数据去噪

轨迹数据去噪是根据限制区域,限制时间、异常速度点、驻留点等条件去除轨迹中的点或整条轨迹。

轨迹数据去噪组件配置包括:

  • 组件属性

在组件属性里面,显示

➣ 作业名称(作业名称可自定义编辑);

➣ 类型:轨迹数据去噪(鼠标移至问号处,显示轨迹数据去噪的解释项)

➣ 所属工作流名称

➣ 输入数据类型:时空动态网数据(轨迹数据)

➣ 输出数据类型:时空动态网数据(轨迹数据)

  • 参数配置

共有三种去噪类型,包括:异常点去噪,时空去噪和混合去噪

➣ 异常点去噪:是指去掉速度超过正常值的轨迹点数据

异常点去噪中,需要配置“最小轨迹长度”,以及“最大速度”,超过最大速度的轨迹点数据,则判断为异常点。

➣ 时空去噪:去掉时间或空间不在给定的时空范围内

在时空去噪中,需要配置“最小轨迹长度”, “空间范围”(包括最低点维度,最低点经度,最高点维度,最高点经度)以及“时间范围”(包括开始时间和结束时间)。超过设置的空间范围和时间范围,则判断为异常点。

➣ 混合去噪: 是异常点去噪和时空去噪两种去噪方式混合使用

在混合去噪中,除了配置“最小轨迹长度”外,不仅需要对时空去噪参数进行配置,包括 “空间范围”(最低点维度,最低点经度,最高点维度,最高点经度)以及“时间范围”(开始时间和结束时间);还需要对异常点去噪的配置参数——最大速度进行参数配置。超过设置的最大速度、空间范围和时间范围,则判断为异常点。

  • 源地址配置

源地址配置中,包括两种数据源——hive和geomesa。

➣ Hive中选择源库和源表信息;

➣ Geomesa:默认namespace为catalog。在catalog中选择要使用的源表文件。

  • 目标地址配置

由于geomesa数据存在geomesa数据库中,系统,默认目标地址源namespace为catalog, 目标表名为系统自动生成的表名

  • 关键字段选择

只有当“源地址”数据类型为“hive”时,才会对hive表中的关键字段进行选择。选择的关键字段包括:点ID,轨迹ID,对象ID, 经度,维度,时间和轨迹日志。其中需要注意的是,点ID, 轨迹ID和对象ID可以是同一个源字段。

2、轨迹数据分段

轨迹数据分段是根据时间间隔或驻留点对轨迹进行切分。

组件配置包括:

  • 组件属性

➣ 在组件属性里面,显示

➣ 作业名称(作业名称可自定义编辑);

➣ 类型:轨迹数据分段(鼠标移至问号处,显示轨迹数据分段的解释项)

➣ 所属工作流名称

➣ 输入数据类型:时空动态网数据(轨迹数据)

➣ 输出数据类型:时空动态网数据(轨迹数据)

  • 参数配置

轨迹数据分段共有三种分段类型,包括:驻留点分段,时间间隔和混合分段

➣ 驻留点分段:按照自定义参数配置,对轨迹中的驻留点

进行分段驻留点分段需要配置“最大驻留距离”,“最大驻留时间”,和“最小轨迹长度”,根据这三个参数对驻留点进行分段。

➣ 时间间隔分段:根据前后两个轨迹点时间差,以及前后两个轨迹点的距离进行分割。

在时间间隔分段中配置“最大时间间隔”(前后两个轨迹点时间差最大不能超过的时间)和最小轨迹长度,依靠此配置对轨迹进行分段。

➣ 混合分段:同时采用时间间隔分段和驻留点分段两种方法。

在混合分段中分别配置时间间隔分段和驻留点分段两个类型的参数项,依靠此配置对轨迹进行分段。

  • 源地址配置

源地址配置中,包括两种数据源——hive和geomesa。

➣ Hive中选择源库和源表信息;

➣ Geomesa:默认namespace为catalog。在catalog中选择要使用的源表文件。

  • 目标地址配置

由于geomesa数据存在geomesa数据库中,系统,默认目标地址源namespace为catalog, 目标表名为系统自动生成的表名。

  • 关键字段选择

只有当“源地址”数据类型为“hive”时,才会对hive表中的关键字段进行选择。

选择的关键字段包括:点ID,轨迹ID,对象ID, 经度,维度,时间和轨迹日志。其中需要注意的是,点ID, 轨迹ID和对象ID可以是同一个源字段。

3、驻留点检测

驻留点检测是根据最大驻留时间和距离来检测轨迹的驻留点,并得到驻留区域。

组件配置包括:, 目标表名为系统自动生成的表名。

  • 组件属性

在组件属性里面,显示

➣ 作业名称(作业名称可自定义编辑);

➣ 类型:驻留点检测(鼠标移至问号处,显示驻留点检测的解释项)

➣ 所属工作流名称

➣ 输入数据类型:时空动态网数据(轨迹数据)

➣ 输出数据类型:时空动态网数据(轨迹数据)

  • 参数配置

在驻留点检测组件里面,目前支持的驻留点检测类型为按照密度进行检测。即在给定最大驻留距离和最大驻留时间,判断轨迹点的密度是否达到阈值。驻留点分段需要配置“最大驻留距离”, “最大驻留时间”,和“最小轨迹长度”,根据这三个参数对轨迹进行分段。

  • 源地址配置

源地址配置中,包括两种数据源——hive和geomesa。 “最大驻留时间”,和“最小轨迹长度”,根据这三个参数对轨迹进行分段。

➣ Hive中选择源库和源表信息;

➣ Geomesa:默认namespace为catalog。在catalog中选择要使用的源表文件。

  • 目标地址配置

由于geomesa数据存在geomesa数据库中,系统,默认目标地址源namespace为catalog, 目标表名为系统自动生成的表名。 “最大驻留时间”,和“最小轨迹长度”,根据这三个参数对轨迹进行分段。

  • 关键字段选择

只有当“源地址”数据类型为“hive”时,才会对hive表中的关键字段进行选择。选择的关键字段包括:点ID,轨迹ID,对象ID, 经度,维度,时间和轨迹日志。其中需要注意的是,点ID, 轨迹ID和对象ID可以是同一个源字段。, 目标表名为系统自动生成的表名。 “最大驻留时间”,和“最小轨迹长度”,根据这三个参数对轨迹进行分段。

4、地图匹配

地图匹配是将轨迹点一一映射到路网上,得到映射轨迹,同时支持将映射轨迹转换为轨迹在路网上的路径。

组件配置包括:

  • 组件属性

➣ 在组件属性里面,显示

➣ 作业名称(作业名称可自定义编辑);

➣ 类型:地图匹配(鼠标移至问号处,显示地图匹配的解释项)

➣ 所属工作流名称

➣ 输入数据类型:时空动态网数据(轨迹数据),路网数据

➣ 输出数据类型:时空动态点数据

  • 参数配置

在地图匹配组件里面,目前支持的地图匹配类型为按照密度进行检测。即在给定最大驻留距离和最大驻留时间,判断轨迹点的密度是否达到阈值。驻留点分段需要配置“均值误差”, “标准差”,和“候选点数”,“Beta值”以及“速度限制”,“匹配区域”(目前只支持“广州”区域)根据这几个参数对路网进行配置。其中:

➣ 均值误差和标准差:确定高斯噪声。最终确定移动物体的真实位置数据。

➣ 候选点数:对轨迹点对应的最大匹配路段数量进行配置;

➣ Beta值:路网参数之一。 Beta值越小,距离权重衰减越快,考虑的轨迹相邻点越少。 默认参数值为4000m。

➣ 速度限制: 即速度相似性。选择是否考虑轨迹与路网的速度先弄个死刑。

➣ 匹配区域:是对轨迹数据要匹配的区域范围进行选择。

  • 源地址配置

源地址配置中,包括两种数据源——hive和geomesa。

➣ Hive中选择源库和源表信息;

➣ Geomesa:默认namespace为catalog。在catalog中选择要使用的源表文件。

  • 目标地址配置

由于geomesa数据存在geomesa数据库中,系统,默认目标地址源namespace为catalog, 目标表名为系统自动生成的表名。

  • 关键字段选择

只有当“源地址”数据类型为“hive”时,才会对hive表中的关键字段进行选择。选择的关键字段包括:点ID,轨迹ID,对象ID, 经度,维度,时间和轨迹日志。其中需要注意的是,点ID, 轨迹ID和对象ID可以是同一个源字段。

5、重点位置发现

重点位置发现是根据轨迹的驻留点信息,提取驻留点质心,并对质心进行空间聚类,最终确认车辆停留较多的重点位置。

组件配置包括:

  • 组件属性

在组件属性里面,显示

➣ 作业名称(作业名称可自定义编辑);

➣ 类型:重点位置发现(鼠标移至问号处,显示重点位置发现的解释项)

➣ 所属工作流名称

➣ 输入数据类型:时空动态点数据

➣ 输出数据类型:时空动态点数据

  • 参数配置

选择是否通过“区域热力图”展示,以及确定“核心点所包含的最小点数量以及核心点查找半径。

  • 源地址配置

源地址配置中,包括两种数据源——hive和geomesa。

➣ Hive中选择源库和源表信息;

➣ Geomesa:默认namespace为catalog。在catalog中选择要使用的源表文件。

  • 目标地址配置

由于geomesa数据存在geomesa数据库中,系统,默认目标地址源namespace为catalog, 目标表名为系统自动生成的表名。

  • 关键字段选择

只有当“源地址”数据类型为“hive”时,才会对hive表中的关键字段进行选择。选择的关键字段包括:点ID,轨迹ID,对象ID, 经度,维度,时间和轨迹日志。其中需要注意的是,点ID, 轨迹ID和对象ID可以是同一个源字段。

7. 数据可视化

7.1 模块简介

莫奈-数据可视化平台聚焦于大屏场景下的数据可视化展示,平台通过简单的图表拖拉拽和数据配置即可完成数据大屏的配置。提供多种可视化图表,充分满足用户多样化的可视化需求。图表支持自定义位置和大小,从而实现所见即所得,零代码也能操作数据可视化。同时为了让使用者更加方便地进行数据的个性化管理与使用,我们提供了多套数据大屏模板,帮助非专业工程师人士通过图形化的界面轻松搭建专业水准的数据大屏,满足客户会议展览、业务监控、风险预警、地理信息分析等多种业务的展示需求。

7.2 可视化应用列表

点击数据可视化菜单,显示数据大屏列表,在这里我们可以看到当前这个用户所在的群组里所有用户创建的大屏,方便当前用户使用同一群组里其他用户创建的大屏。

用户可以在当前页面新建数据大屏,预览、修改、复制或删除已有的可视化应用,对未发布状态的大屏进行发布,对已发布的大屏取消发布等操作。发布状态的大屏拥有稳定的链接,而对大屏进行预览时只是生成了一个临时链接。

7.3 大屏配置端基础操作

1-图层控制区;

2-组件工具栏区;

3-大屏画布区;

4-属性配置区;

图层控制区:

图层控制区中会显示所有在大屏中的组件,并可在此区域中对组件进行图层的操作,包含“上移一层”,“下移一层”,“置于顶层”,“置于底层”等操作。

组件工具栏区:

组件工具栏区中包含所有可用的图表组件,并且可对当前数据大屏进行放大和缩小,以此来完整显示一个大屏。预览操作可对已经配置好的大屏进行预览。当前支持组件包括:

➣ 图表组件:柱状图、折线图、折线柱状图、饼形图、列表、横向柱状图、雷达图、词云等;

➣ 地图组件:2D地图组、热力层、区域热力层、飞线层、三点层;

➣ 文字组件:时间器、普通文字;

➣ 媒体组件:视频组件

➣ 交互控件:Tab组件、时间范围选择组件、城市选择组件

➣ 装饰组件:标题栏、边框等;

➣ 其他组件:内嵌网页框架

大屏画布区:

大屏画布区则是图表的展示区域,其中黑色大屏部分是显示给用户的区域,在此区域中配置的图表均会展示给用户,若图表配置在黑色部分外,则无法展示出来。

此区域中包含两条横向对照线和三条竖向的对照线,方便进行图表配置时将两个图表进行对齐。

属性配置区:

属性配置区可以对大屏的属性和图表的属性进行配置,当前选中那个组件,则配置区中即会显示哪个图表的属性配置信息。对于大屏配置来讲,当前支持对大屏的尺寸进行设置,以满足在不同尺寸的终端上查看大屏的需求。对于图表配置来讲,当前包含对图表的样式配置和数据配置。样式配置用来调整图表样式,数据配置为图表提供数据源。

7.3.1 组件应用

1、添加组件

点击“组件工具栏”中的组件分类,弹出组件列表,点击选择一个组件,该组件即可出现在大屏中。

2、删除组件

方法一:选中大屏中的一个组件(选中状态的组件边框含有蓝绿色虚线,如上图所示),通过键盘中的“delete”按键完成组件删除的操作

方法二:在图层控制区选中需要删除的组件,点击按钮,在弹出框中选择【删除】,确认删除后,即可完成删除操作。

3、多选组件

对组件多选有三种方式:

• 方式一:

Windows系统下,在左侧图层控制区中按住ctrl键,点击多个组件,完成组件的多选操作;

Mac系统下,在左侧图层控制区中按住cmd键,点击多个组件,完成组件的多选操作;

• 方式二:

Windows系统下,在中间画布区的大屏中按住ctrl键,点击多个组件,完成组件的多选操作;

Mac系统下,在中间画布区的大屏中按住cmd键,点击多个组件,完成组件的多选操作;

• 方式三:

在大屏配置端,按住鼠标左键(此为第一个点),拖动鼠标,直至用户松开鼠标左键(此为第二个点),以这两个点为长方形两个对角线的顶点,以这两个点出发的两条水平线和两条竖直线构成的鼠标选中区域,当一个图表完全包含在选中区域中时,此图表被选中。

鼠标放开,选中区域中完全被包含的组件。

4、组件重命名

对组件进行重命名有两种方式:

• 方式一:在左侧图层控制区中右键组件,在弹出框中选择【重命名】,组件名称变成可编辑状态,输入组件名称,按回车键或其他位置,完成保存。

• 方式二:在大屏中选中某个组件后点击鼠标右键,在弹出框中选择【重命名】,在左侧图层区可以看到组件名称变成可编辑状态,输入组件名称,按回车键或其他位置,完成保存。

5、组件锁定和解锁

锁定后的组件,在画布中不能被不能选中,不能进行其他任何操作。

对组件进行锁定有两种方式:

• 方式一:在左侧图层控制区中选中一个或多个组件,点击鼠标右键,在弹出框中选择【锁定】,完成组件的锁定。

• 方式二:在大屏中选中一个或多个组件后点击鼠标右键,在弹出框中选择【锁定】,完成组件的锁定。 

对组件进行解锁仅有以下一种方式:

在左侧图层控制区中选中被锁定的一个或多个组件,点击鼠标右键,在弹出框中选择【解锁】,完成组件的解锁。

7.3.2 图层操作

1、上移一层

方法一:在图层控制区选中组件,点击┇按钮,在弹出框中选择【上移一层】,完成此操作。此组件所在图层上移一层。

方法二:在图层控制区选中组件,点击↑按钮,完成此操作。此组件所在图层上移一层。

2、下移一层

方法一:在图层控制区选中组件,点击┇按钮,在弹出框中选择【下移一层】,完成此操作。此组件所在图层下移一层。

方法二:在图层控制区选中组件,点击↓按钮,完成此操作。此组件所在图层下移一层。

3、置于顶层

方法一:在图层控制区选中组件,点击┇按钮,在弹出框中选择【置顶】,完成此操作。此组件将置于当前大屏所有组件的最上方。

方法二:在图层控制区选中组件,点击↥按钮,完成此操作。此组件将置于当前大屏所有组件的最上方。

4、置于底层

方法一:在图层控制区选中组件,点击┇按钮,在弹出框中选择【置底部】,完成此操作。此组件将置于当前大屏所有组件的最底部。

方法二:在图层控制区选中组件,点击↧按钮,完成此操作。此组件将置于当前大屏所有组件的最底部。

5、移动至任意图层

在图层控制区,选中一个组件,向上或向下拖动完成此组件的图层调整。(当前仅支持单个组件的进行拖动调整其图层)

6、移动组件

方式一:选中某个组件后,鼠标左键选中后拖动组件,完成组件在大屏中的位置移动;

方式二:选中某个组件后,点击键盘中的上、下、左、右键,完成组件在大屏中的位置移动;

7、组件对齐

当选中两个及以上组件后支持组件对齐功能,包含左对齐、左右居中、右对齐、上对齐、下对齐、上下居中。

选中两个及以上的组件,点击工具栏右上方的对齐,选择对齐方案,完成对齐操作。

• 左对齐:所有选中的图表以最左侧的边为基准进行对齐;

• 左右居中:所有选中的图表垂直中线在同一条直线上;

• 右对齐:所有选中的图表以最右侧的边为基准进行对齐;

• 上对齐:所有选中的图表以最上面的边为基准进行对齐;

• 上下居中:所有选中的图表水平中线在同一条直线上;

• 下对齐:所有选中的图表以最下面的边为基准进行对齐;

8、组件分布

当选中三个及三个以上组件,支持组件分布功能,包含 纵向分布、横向分布。

选中三个及以上的组件,点击工具栏右上方的横向分布,完成横向分布操作。

选中三个及以上的组件,点击工具栏右上方的纵向分布,完成纵向分布操作。

• 横向分布:以最左侧图表的左侧边和自右侧图表的右侧边为准线,选中的图表间距等分;

• 纵向分布:以最上侧图表的上侧边和自下侧图表的下侧边为准线,选中的图表间距等分;

7.3.3 大屏基本设置

1、大屏尺寸设置

选中大屏背景,右侧出现大屏配置信息,用户可对大屏尺寸进行配置,以满足在不同终端中显示大屏的需求。单位为px。

2、大屏背景设置

选中大屏背景,右侧出现大屏配置信息,用户可对大屏的背景进行配置,支持设置大屏的背景颜色以及背景图片。并且系统预置了三个背景图片,便于用户选择,同时也支持用户上传图片,图片大小限制在1M以内,图片格式支持JPG/PNG/GIF文件,如下图。

3、大屏自适应设置(即大屏缩放方式)

大屏缩放方式即是对大屏自适应的设置,此功能为当屏幕尺寸与所配置的大屏尺寸不能吻合时,大屏的自适应方式。如不需自适应,则勾选“无”即可。

目前大屏支持以下三种自适应的方式:

• 等比缩放宽度铺满:按照实际屏幕宽度铺满全屏,高度按原大屏比例调节;

• 等比缩放高度铺满:按照实际屏幕高度铺满全屏,宽度按原大屏比例调节;

• 全屏铺满:按照实际屏幕铺满全屏,无视原大屏比例,可能造成大屏的拉伸或变形;

4、截取大屏封面

选中大屏背景,右侧出现大屏配置信息,最下侧有“截取大屏封面”按钮,点击后,系统自动截取当前大屏快照作为大屏分封面显示在大屏列表中。

5、画布操作

在大屏画布的最下方,有全屏、大屏当前的缩放比例(可进行放大和缩小),以及适应画布三类操作。 点击【全屏】按钮,系统会隐藏左右两侧的工具栏,操作空间增大。 点击【取消全屏】按钮,左右两侧工具栏显示在原位置。

点击缩放比例左侧的减号,整体大屏缩小; 点击缩放比例右侧的加号,整体大屏放大; 此处的放大和缩小不影响预览和发布状态的大屏的尺寸。

点击【适应画布】大屏会根据当前屏幕的尺寸以最合适的比例显示出来。

7.3.4 数据源配置

组件的数据源为组件提供数据,当前莫奈产品中共支持以下三种类型的数据源。

1、静态数据

选中组件,右侧出现次组件的数据配置框,组件数据源的静态数据支持json格式的静态数据。按照选中组件要求的数据格式将数据粘贴进来即可。

2、API

选中组件,右侧出现次组件的数据配置框,切换数据源类型为API,将API的链接粘贴到输入框中即可,API返回的数据格式要与图表要求的数据格式一致。

可选择是否自动更新数据,以及自动更新数据的频率,假定选中自动更新数据,每5秒更新一次,择莫奈将会每5秒请求一次填入的接口来获取数据。

3、数据库

组件的数据源中数据库的支持当前包含四类数据库,数据库、Oracle、SQL Server 以及基于城市操作系统的Hive库

选中组件,右侧出现次组件的数据配置框,切换数据源类型为数据库,选择数据库,选择在城市操作系统-时空数据源中配置的数据库库名,即可链接到数据库库。在输入框中输入要查询申请SQL语句,完成数据的查询。SQL语句返回的数据格式要能组成组件要求的数据源格式,莫奈会自动通过接口将数据库查询出的结果转为json格式。

可选择是否自动更新数据,以及自动更新数据的频率,假定选中自动更新数据,每5秒更新一次,择莫奈将会每5秒通过SQL语句查询一次数据库来获取数据。

8. 跨域学习

8.1 模块简介

为更好地挖掘数据的价值,京东城市提出了一整套不同数据平台间数据共享交换的方法,即数字网关。数字网关着重解决了现有数据交互方面存在的四个问题。首先是不同企业之间、不同政府部门之间以及企业和政府部门之间合作时,平台相互连接涉及到的注册和认证机制等问题。第二是数据无法安全对外输出或者数据敏感无法输出造成的数据共享问题,及其影响到人工智能模型建模的问题。第三是各数据平台之间的数据交互安全问题。最后是数据平台的数据监控问题,包括流量统计、费用结算等等。

8.2 新建跨域学习任务

1) 进入城市操作系统“跨域学习”功能,点击“新建”;

2) 点击“新建”, 输入任务名称和描述。

其中,任务名称支持重复校验,并支持中文名称输入。

3) 进入新建跨域学习任务导航,选择进行跨域学习的平台;

4) 平台选择完毕,点击下一步。进行应用的选择:

5) 应用选择完毕后,点击下一步,进行模型选择

6) 选择训练的数据集,及Label字段。

7) 对数据进行预处理,并选择对齐字段。

在字段处选择要对齐的ID字段,并对对齐ID字段进行预处理方式的选择。可选择多个对齐字段。

数据预处理的方式目前支持两种:包括MD5, GeoHush。

MD5的编码精度包括16和32两种;

GeoHush的编码精度包括1到10 十种。

8) 对齐ID选择完毕后,对目标值进行配置。

配置参数根据所选择的模型不同而不同。下图展示的是跨域逻辑回归模型的参数项。

9) 目标值配置完毕后,可以进行信息预览

10) 信息确认无误后,点击下一步,发起训练请求。发起请求成功,系统返回请求成功的信息。等待对方平台响应请求。

8.3 响应跨域学习请求

1) 对方平台收到跨域学习请求,在“跨域学习”的任务列表里面显示一条状态为“未确认”的任务。

2) 对待响应的请求进行响应处理。点击“处理”,则显示请求的信息预览。

3) 如确认接受跨域学习请求,则点击“接受”,进如联通性测试。

4) 联通性测试成功后,点击“开始训练”,则开始训练。

8.4 查看跨域学习任务

1) 进入城市操作系统“跨域学习”功能,则可以看到所有训练任务。训练任务状态有:“训练中”,“待处理”, “训练完成”,“连通性测试失败”。

9. 数据治理

9.1 数据标准

数据标准包括对于三个核心属性的管理,分别是管理属性、业务属性和技术属性。管理属性是为了便于管理数据标准的属性,如数据项编号、数据标准版本号等。业务属性是描述与实际业务相关的内容,如数据主题、业务描述等。技术属性是描述在数据仓库中对数据的存储和识别的相关信息,如数据类型、数据格式等。

在城市操作系统中注册的机构都可以维护属于自己的数据标准,可以查看整个平台的数据标准,便于形成数据标准的平台生态,基于数据标准可以使机构内外部使用和交换的数据是一致的、准确的。

9.1.1 数据标准管理

管理员维护数据标准页面管理员维护数据标准页面

该图为管理员维护数据标准的页面,左侧为业务目录区域,包括对部分业务属性的维护,如主题、主题编号和1~5级分类,同时还提供数据标准excel导入功能。右侧为数据标准管理区域,提供数据标准单条新建功能以及数据标准维护功能。

操作流程:

• 点击增加主题,输入主题名称及主题编号,完成主题新建,在该主题下可以手动维护分类及标准或者通过导入excel的方式进行创建;

• 点击添加分类,输入分类名称,即可在该分类下维护标准;

• 选择主题-分类后,在右侧数据标准管理区域,可以点击新建标准新建单条数据标准,输入信息项的业务属性(中文名、英文名、业务描述、编码规则、制定依据)、技术属性(数据类型、数据格式)和管理属性(版本号、版本日期、制定者)完成数据标准创建;

• 对于新建完成的标准,点击启用,可以上线该标准,操作系统中所有用户可以在数据标准中查看到该标准的相关信息;

• 可以对所有标准进行查看详情和编辑操作,编辑后会生成一个新版本的数据标准,原数据标准会下线收起,用于历史版本管理;

9.1.2 数据标准查看

平台用户查看数据标准页面平台用户查看数据标准页面

该图为平台用户查看数据标准页面,可看到的数据标准为整个平台的内容,包括各个主题分类下的数据标准内容详情,具体为数据标准编号、中文名、英文名、业务描述、编码规则、数据类型、。对于数据标准的使用可以在数据质量监控模块中进行选择应用。

9.2 元数据管理

元数据包括技术元数据、业务元数据和管理元数据三类,具体内容有数据仓库中模型的定义、各层之间的映射关系、数据数据状态、ETL运行任务信息、算法功能模块信息、业务描述和平台管理流程信息等方面的数据。建立元数据管理子系统方便所有平台使用人员能够快速、准确的找到自己关注的数据信息,以及指导相应模型数据的开发和管理工作。

元数据管理子系统打通了源数据、数据仓库、数据应用,记录了数据从生产到消费的全过程。通过元数据分类使得整个元数据存储和使用更为清晰,通过元数据基础功能管理提高元数据的应用安全和模型质量,通过元数据分析给用户提供了更多针对模型的分析功能,进而辅助模型和系统的优化。

元数据管理主要包括元数据基础信息、冷热门数据、数据血缘等,深入挖掘表与表之间的关系。元数据基础信息主要包括表的存储位置、存储空间大小、字段信息和权限等内容;冷热门数据通过表的访问频次、字段的使用情况来定义数据冷热门情况,便于管理者考虑对热门数据开放更多权限,对冷门数据进行清理节省存储空间;通过数据血缘关系展示当前表的数据是通过哪些数据表生成而来,并逐层向上溯源数据之间的关系,为其设定展示数据间的血缘关系。

9.2.1 表检索

在元数据管理首页,提供按“表”、按数据仓库“所在层”、按数据库“存储类型”、“数据库”对表进行检索。这几种检索表的方式可以同时选择。检索出来表的范围为符合所有检索条件的表。

• 按“表”检索

输入表名,点击搜索,下面的表信息框内显示所有相关表的信息。

• 按数仓“所在层”检索

点击数仓“所在层”的任意一个层, 则显示所在层所有的表。

• 按数据库“存储类型”检索

点击数据库存储类型的Hive/HBase标签,则显示这种类型的所有表。

• 按“数据库”检索

选择“数据库”列表里面的库,则在表列表里面显示所有的表信息。

• 按时间检索

选择“开始日期”和“结束日期”,则显示所有符合条件的表的信息。

• 按“我收藏的表”、“今日变更的表”、“今日创建的表”和“今日删除的表”检索

点击“我收藏的表”、“今日变更的表”、“今日创建的表”和“今日删除的表”,则会显示对应情况的表。

9.2.2 表详情

表详情包括元数据基本信息、明细信息、血缘信息、使用记录和数据预览。

• 基本信息

元数据基本信息主要由表的创建时间、数据库类型、所在数据库、存储量、生命周期、创建方、表描述、权限信息和数据表更时间等。

• 明细信息

明细信息主要包括表的字段信息、分区信息和变更信息,变更信息有对于表名称变更、字段名称变更、删除字段和添加字段四类变更信息的记录。

• 血缘信息

可视化展示当前表是由哪些表产生的以及产生了哪些表,展示所关联的上游表和下游表。

• 使用记录

使用记录主要包括对于表的关联情况进行记录以及对字段select、where、join和groupby的次数进行记录,同时可视化展示数据访问的趋势折线图。

• 数据预览

数据预览对于有权限的用户提供100条数据的预览查看,对于没有权限的用户不开放预览,并提供无权限提示,效果如下图:

9.3 数据质量监控

城市操作系统应用是通过汇聚政府、企业等产生的数据,对这些数据进行加工处理、分析挖掘,对数据进行脱敏处理后,构建数据应用和产品,形成有价值的信息增值,满足城市管理决策、生产经营活动需要,及对外提供数据产品和商业信息服务。数据质量监控子系统主要是检验数据的完整性、一致性、准确性和时效性等,对数据提供质量校验规则。

数据质量监控以数据库中的数据表为监控对象,当数据库表中的数据发生变化时,数据质量会对数据进行校验,并通过与历史数据的同比等分析方式,对数据质量进行分析和告警定级等,方便用户及时发现数据质量异常,及时进行问题的处理和修复,防止问题扩散。

数据质量监控首页数据质量监控首页

9.3.1 数据质量检测

数据质量检测拥有表级和字段级两种监控维度,多种预置模板,并且支持多种同比方式,满足用户数据质量检测需求。

• 监控对象

数据质量监控的对象支持离线同步的周期和非周期数据,也支持平台其他非同步任务的表(如在数据开发创建的表)进行监控。

• 监控力度

数据质量检测可以在表级和字段级两个维度对数据进行检测监控。

• 监控方式

➣ 表行数,对于表的数据行数进行监控。

➣ 空值,对于表某个或某些字段的残缺的、不完整的数据进行监控。

➣ 重复值,对于表中设置的唯一标识或其他字段对数据进行重复值检测。

➣ 离散值,对于表某个字段或某些字段的数值远超出其他正常范围或者值域的数据进行检测。

➣ 空值/表行数,对于表中空值的占比情况进行监控。

➣ 重复值/表行数,对于表中重复值的占比情况进行监控。

➣ 离散值/表行数,对于表中离散值的占比情况进行监控。

➣ 数据标准规则,对表字段可以根据国家数据标准、行业内数据标准或者企业内部数据标准规则进行监控。

• 同比方式

由于离线同步数据可能存在周期性更新数据的情况,数据质量监控支持按照周期对数据进行同比监控,具体包括日同比,周同比,月同比,年同比和不同比。对存在周期性更新的数据或者静态数据都可以按照需求配置同比方式。

• 监控详情

对于各项监控规则所执行的结果提供正常、橙色报警、红色报警的监控结果,以及具体的报警原因,同时会以站内信的方式通知给用户,便于用户及时查验。

具体操作为:

• 点击添加监控任务,输入任务名称,选择数据库类型、库和表,以及对应的任务监控负责人,即可完成监控任务的创建;

• 在创建完成的任务后,点击监控规则,进入监控规则页面,点击创建规则,输入规则名称,选择监控级别(表级、字段级),选择监控字段(当选择监控级别为字段级时),选择监控类型和同比方式,以及添加对应的报警级别和对应的报警阈值,即可完成监控规则的配置;

• 创建好监控规则后,返回监控任务页面,点击启用监控,数据质量监控任务即可开启数据检测;

• 点击监控详情,可以看到具体的监控报警内容及原因;

• 点击实例管理,可以看到任务执行的具体情况及日志;

10 AI服务

10.1 模块简介

AI服务是面向城市计算领域针对海量数据融合应用,通过城市操作系统AI服务,提供从数据预处理、特征工程、模型构建、模型训练、模型评估到模型服务的全流程开发、部署服务。AI服务模块包括四个业务子模块:AI建模服务、伏羲平台;

10.2 AI建模服务

AI建模平台内置丰富的通用AI算法组件,包括常用的分类、回归、聚类、图像分类、目标检测、自然语言处理等;AI建模平台持续集成京东城市多年沉淀的丰富的时空AI算法。AI建模平台支持多种算法框架,满足多种 AI 应用场景的需求,通过自动化建模(AutoML)的支持与拖拽式任务流设计让 AI 初学者轻松上手,向机器学习用户提供了更简易的操作体验,真正做到让人工智能触手可及。

1、创建时空作业

用户可以创建空白作业,也可以通过模板创建模板作业。

2、拖拽算法组件,构建DAG算法流

用户根据业务需求,拖拽算法组件构建一个DAG算法流。用户可已拖入画布的算法组件,在弹出的右边栏中配置算法参数。

AI建模服务提供丰富的 AI 算法组件,同时将成熟的城市计算领域时空AI算法封装成时空AI算法组件,方便用户便捷高效的解决现实业务需求。

3、执行算法作业

用户设计在画布内连接配置好计算过程后,可直接提交当前计划开始运行。人工智能平台提供手动运行和定时运行两种运行模式。

手动运行作业:手动运行有两种使用场景,一种是算法流程配置无误,校验无异常时可通过点击“启动”按钮运行整个作业,另一种是单个组件运行,即用户根据需要右击组件,在右键菜单栏中选择“单点执行“。

定时运行作业:在集群资源有限或要运行的作业需要计算的时间较长时,用户可以使用“定时运行”模式来实现在夜晚或其它时间自动运行计划的需求。 点击定时执行按钮,可以设置作业的运行时间。

4、结果评估

平台提供多种可视化与模型评估组件,方便用户快速辨别模型的质量,并进行优化,拖拽组件即可使用。

5、模型部署

如果结果评估可以满足业务需求,用户可以点击模型部署按钮,一键完成将模型部署成API服务的工作。

10.3 伏羲平台

伏羲通用预测平台基于京东城市先进的自动机器学习算法,为用户提供一站式、场景化、全自动人工智能预测平台,旨在打造让人工智能应用走向规模化的生产流水线。

1、选择场景

场景列表页场景列表页

2、创建项目

新建项目新建项目
项目列表页项目列表页

3、上传数据

点击项目,进入项目操作页面。

数据上传数据上传

4、训练模型

数据上传成功后,点击训练模型。系统将根据您选择的场景和上传的数据自动设计机器学习模型。

自动模型训练自动模型训练

5、查看结果

训练成功后,可点击查看预测结果。

查看预测结果页查看预测结果页