# 工作流管理
完成数据源和数据模型配置后,需对数据进行处理,包括数据清洗、数据萃取、数据导出等常规操作,此外还可以选择标签计算、One ID 等。
# 创建工作流
进入 数据集成 > 工作流管理,创建文件夹(可选)后在文件夹下添加工作流,根据需要配置工作流信息。
周期:可选单次任务、周期任务和实时任务,其中单次任务和周期任务属于离线任务计算。
- 单次任务:运行一次任务即结束。
- 周期任务:每隔一段时间运行一次任务。
- 实时任务:始终运行任务。
参数设置:工作流所需全局参数。
假设设置时间参数为 pt=${yyyy-MM-dd-1},在下游节点中可填写 ${pt} 以引用该参数,平台将替换该变量为某个具体日期。
依赖工作流:若当前工作流需在另一个工作流运行完成的基础上再执行,即需配置依赖工作流。
提交队列:可实现更精细的工作流分配和管理,具体请参见 队列管理。
任务优先级:可设置工作流运行的优先级,数字越大,优先级越高。
所属目录:当前工作流所在文件夹。
# 数据集成
将数据从数据源中集成至系统内部。
# 创建集成节点
选择数据集成节点。
# 编辑集成节点
选择需读取的数据源和数据模型。
点击 + 创建系统内部 Cassandra 模型名称。
- 选择所需字段后,点击 > 添加至 Cassandra 模型。
点击 编辑 修改模型字段,包括主键、分区键等。模型中必须包含主键。
点击 添加 可自行添加字段,添加的字段需设置默认值。
在编辑模型字段或添加字段时,可添加质量规则。
点击 确定 保存配置。
# 数据清洗
# 创建清洗节点
选择数据清洗节点。
# 编辑清洗节点
- 设置清洗表表名。
- 选择需清洗的系统内部表名为主模型,添加过滤条件以筛选表中字段,等同于 SQL 中的 Where 语句。
- 可选新增关联模型。
- 在模型中选择用户所需字段,点击箭头图标同步至清洗表。
- 可根据需要编辑或新增字段(右侧模型必须含有分区键)。
# 数据萃取
# 创建萃取节点
选择数据萃取节点。
# 编辑萃取节点
- 设置萃取表表名。
- 选择需萃取的系统内部表名为主模型,添加过滤条件以筛选表中字段,等同于 SQL 中的 Where 语句。
- 可选新增关联模型。
- 在模型中选择用户所需字段,点击箭头图标同步至萃取表。
- 可根据需要编辑或新增字段。
# 数据导出
将系统内部已处理的数据导出至外部数据源。
# 创建导出节点
# 编辑导出节点
- 选择需导出的数据模型。
- 选择数据源(EXTERNAL 类型)。
- 选择该数据源下的数据模型(需提前创建,且导出的字段名、数量和顺序需保持一致)。
# ONE ID
One ID 是针对用户所选字段的每一条数据加密后生成的唯一性 ID(Unique ID)。
- 用户可按照优先级针对所配置的字段生成唯一的 One ID,随后对比相同的 One ID 数据以排同查异,查找不同系统下的同一用户。
- 通过工作流中 One ID 节点生成的数据将存储于数据湖的 dim_cust_oneid 纬度表中,新生成的 One ID 数据将替代原有数据,随后重新加载最新数据。
- One ID 生成的数据表 dim_cust_oneid 存在 6 个字段(one_id、phone、app_id、open_id、member_id、email),若用户所选字段来源于此,则该部分字段将显示为空。
- One ID 将依次根据 phone、member_id、email、app_id 和 open_id 字段生成。若用户设置第一优先级为空,则生成规则将根据优先级依次顺延。
例如,用户已设置 phone、member_id、email 三个字段,则 One ID 将针对 phone 加密生成。若第一优先级字段 phone 字段为空,则 One ID 将针对 member_id 加密生成,以此类推。
One ID 旨在解决多系统或多数据来源下,无法判断用户是否为同一用户的问题。合理使用该功能,可通过关键字段查找不同数据源中的相同用户,并且对比信息异同。
创建工作流并创建所需节点。
基于已创建的节点,选择 One ID 节点。
新建数据模型(通常为两个,即重复两次以下操作):
3.1 点击 新建数据模型。
3.2 选择相应的数据模型。
3.3 对数据模型中的字段进行业务说明。
3.4 点击 确定 保存配置。
运行工作流。
One ID 的生成结果可在 数据集成 > 即席查询 中查询。
查找 dim_cust_oneid 纬度表。
复制相应的查询 SQL(也可自定义编写)。
执行 SQL,获取相应结果。
# 标签计算
您可为表中字段配置标签,数据平台将同步源数据至会员平台,会员平台可在此基础上为字段添加规则并同步至数据平台,数据平台即可根据字段规则进行计算。若会员平台未配置规则,则该节点在实际执行中无法进行计算。
例如,某一百万数据中包含年龄字段。您可在标签计算节点中设置年龄字段为指标,在会员平台设置规则(年龄大于 18 为成年人,小于 18 为未成年人),数据平台即可通过计算了解成年和未成年的具体人群。
# 创建标签节点
选择标签计算节点。
# 编辑标签节点
点击 添加指标。
选择需计算的表名和字段。
点击 确定 保存配置。
# 数据注销
若您不希望系统保留数据,可通过数据注销清除留存于系统内部的数据。
# Python 执行
您可通过 Python 进行机器学习,并通过日志查看运行结果。
# 群组计算
您可在标签计算的基础上,通过群组计算划分人群。
# 工作流明细
您可进入 数据集成 > 工作流管理 查看工作流明细。
# 工作流导入导出
如需导出工作流,勾选工作流目录或工作流后,点击 批量导出。
如需导入工作流,点击 批量导入 > 上传 后,在本地选择后缀为 .workflow 的文件即可。