数据即服务——全球数据平台

构建全球数据平台的旅程始于一个相对简单的商业声明:“Workday 将推出一款新的数据即服务产品,基准测试将是该产品的首项服务。”基准测试服务允许客户选择他们希望为该服务做出贡献的指标。作为回报,他们可以访问来自同行群体的相同指标的基准测试数据。

Workday 客户能够找到分析问题的答案,例如“我公司的营业额与小型科技公司相比如何?”或“我所在行业和地点类似规模的公司的平均利润率是多少?”

客户不仅可以通过法律协议决定是否参与基准测试解决方案,还可以决定订阅哪些类别以获得相应的基准测试。客户可以查看他们贡献自己数据的指标的基准测试。

当我们无畏的领导者(当时的用户体验高级副总裁,现任首席技术官)Joe Korngiebel 于 2016 年 9 月在 Workday Rising 上宣布基于客户需求的数据即服务时,我们面临的挑战是构建一个能够满足这些要求的数据共享平台。

能够满足这些要求的系统必须具备以下特性:

对于 Workday 来说,这是可能的,因为我们使用同一条代码流水线。如果客户使用的是不同的软件版本,这将是一项几乎不可能完成的任务。相反,底层构建块完全适合此用例所需的全局分析系统。然而,这并不意味着创建一个处理混合数据的单一全局分析系统没有任何挑战。保持架构灵活性而不引入太多复杂性、隐私问题和安全要求是我们必须始终放在优先考虑位置的一些挑战。

架构

下图以分层结构描述了数据即服务 (DaaS) 架构。此分层标准化了数据收集和数据访问控制:

  • 用于聚合(去识别)数据的全局数据架构(单一模式)。
  • 可扩展且安全的云数据存储。
  • 跨客户的合理化定义(常见的分类法)。

无状态仓库

该仓库位于 Amazon Redshift 之上,这使得仓库具有高度可扩展性并能满足不断增长的需求。从这个意义上讲,数据即服务平台使用公共云的可扩展基础设施组件,例如负载均衡器和托管服务。随着数据大小的增长,集群还可以随时通过编程方式调整大小。在此架构中,Workday 事务数据是任何贡献给仓库的数据的真实来源。系统组件在生产者-消费者模式中分为两个主要类别:推送组件和拉取组件。

异步数据贡献

推送组件包括我们需要整理、去标识化、验证和贡献客户选择加入的数据集的所有软件子系统。推送作业在每个选择加入至少一个数据集的客户租户上异步运行,并且仅贡献该数据集。数据收集频率和周期由每个数据集控制。此模型在架构中构建了弹性,并处理:

  • 隐私、道德和合规 (PEC) 要求;允许客户选择退出并被遗忘。
  • 内置灾难恢复,长期运行或间歇性作业失败。
  • 每次 Workday 部署都会发生架构变化、新数据集和错误修复。

实时报告要求

Pull 组件包括运行时查询请求、查询参数、隐私控制和查询 DSL(领域特定语言)。Workday 应用程序连接到 DaaS 数据仓库系统,使用 Workday 微服务为 DaaS 发出实时分析查询。客户可以在 Workday 应用程序中针对全局仓库运行报告,并根据需要进行维度切片和过滤。查询请求是实时构建和执行的,无需任何缓存。

微服务与仅在 Workday 网络内的其他 Workday 服务、Amazon Simple Storage Service 和 Workday Amazon VPC(虚拟私有云)内的 Redshift 服务交互。这种 API 驱动的访问允许任何 Workday 应用程序与 Workday 数据中心内的 DaaS 平台中的数据交互,从而为其他 Workday 服务提供灵活性。定义了几个 API 层,可用于与 DaaS 数据集交互:

  1. 本机 REST 调用:服务到服务访问。
  2. 应用层访问:内部 Workday XpressO API。
  3. 框架服务访问:低级 Java API 访问。
数据摄取(重建世界)

微服务会定期监控存储桶的相应存储位置,并决定何时触发重建过程。重建过程是原子的,因为在重建过程中,仍可以针对现有数据提供查询,并具有读取一致性。一旦发布了新版本的数据集,任何新查询都会使用最新发布的数据集。

每次重建时,都会为每个类别发布连续 12 个月的数据集。在这种情况下,如果新客户选择加入数据集,该客户将贡献其 12 个月的数据(如果存在)。同样,如果客户选择退出数据集,它将删除其对该数据集的所有贡献。此过程使仓库能够随着每个数据集的贡献而有机增长。仓库重建过程的无状态性质使得可以增加数据收集的回溯范围及其周期性。

隐私和安全

在软件即服务平台上,租户数据被严格隔离,以保持每个租户数据之间的分离。在基准测试用例中,最好共享某些测量数据以进行比较,并更全面地了解情况(例如:薪资调查或其他行业基准)。这种共享需要租户做好准备,清除数据中的任何专有或敏感信息。因此,需要定期使用提取和转换作业进行共享,以便在发送贡献之前通过去识别过滤器和聚合函数。

此外,查询处理单元会根据所使用的报告数据源、聚合函数和查询参数自动确定报告数据是否可以链接回租户或是否可以根据报告输出推断出租户。例如,如果用户希望执行一份报告来确定在美国科技公司工作的女性全职员工的潜在高离职率中位数,则查询 DSL 将评估报告参数并确定适用的贡献数据以匹配报告请求,然后将结果传递给微服务中的隐私功能,以确定是否有足够多的贡献者参与了数据集的聚合,之后无法推断出单个租户。这意味着数据不能归因于请求执行报告的租户或贡献租户。

权限和可配置的安全性

该框架支持按子类别粒度分段的安全性。随着我们添加更多功能区域(例如地理位置或工人类型的交叉安全性),该领域的更多增强功能将浮出水面。下图描述了客户管理员可以为其租户实施的控制级别。

DaaS 平台的主要用例

基准测试解决方案:一个全球自动化数据收集和分析系统,允许 Workday 客户将其公司绩效指标与同行业的同行进行比较。

第三方数据的单一版本: DaaS 平台可以充当具有键值对搜索功能的单一全局、安全且高性能存储。例如,Workday 应用程序可以利用公开可用的数据进行供应链供应商集成或地理位置数据集。

跨客户租户的配置数据市场: DaaS 平台可以得到增强,以存储并允许跨客户租户共享配置数据。例如,专业服务公司可以共享高价值的自定义报告定义,或者客户可以共享他们认为有用的配置。

计费和计量: Workday 云平台 API 使用情况和计量数据集目前托管在 DaaS 平台上。这可以扩展为所有需要计费解决方案的 Workday 应用程序的单一计费系统。

近乎实时的性能优化: Workday 服务可以将增量使用情况统计信息注册到 DaaS 平台。然后,这些服务可以利用 DaaS 查询功能的实时性进行数据驱动的运行时分析和调整。例如,基于字段执行统计信息在报告运行时对报告过滤器进行动态排序,或者可以针对每个任务进行优化的事务提交逻辑。

未来之路

就产品路线图而言,我们正在关注:

  • 定制基准测试。
  • Workday 云平台 API 的使用和计量功能有更多增强。
  • 地理位置数据、日本和韩国邮政编码等全球数据集。
  • 机器学习和分类映射。

客户可以通过签署创新服务订单并选择其租户内的类别来加入基准测试解决方案。

我们很高兴您能加入我们的数据即服务大家庭!感谢您的阅读。

 

滚动至顶部