沃卡惠移动端logo

沃卡惠  行业资讯

资讯详情

数据仓库在哪里

2022-12-16 09:02:324636

影子数据(或数据孤岛)在以下情况下出现:

自主性和速度优先于技术标准;

数据访问或资源有限,迫使团队围绕现有系统和流程工作;或者

数据消费者决定部署他们自己的单点解决方案,而不是与您合作。

但是消费者不是挥舞白旗,而是经常在数据团队的监视之外找到他们需要的东西——这是有风险的。

数据仓库在哪里

数据孤岛给数据消费者和数据团队带来了许多风险,例如:

脆弱 :我敢打赌,财务分析团队的John没有为他的数据集部署依赖关系管理和异常检测等系统。当高管们来问你为什么这个指标是错的时,如果你不知道它是如何产生的,那就很难调试。无论哪种情况,这都会带来有价值的业务数据丢失的风险。

知识流失 :如果一个数据“超级用户”离开了,你不会想知道如何对你现在继承的深奥系统进行逆向工程。这不仅是一种糟糕的资源分配,而且他们的系统可能在被发现成为问题之前就已经造成了数不清的麻烦(一家公司发现,在一名团队成员离开后,他们的一种预测算法被发现自动运行,导致数百万美元的收入受到影响)。

安全性 :“我并不知道这件事!”不会阻止监管机构对不当处理个人数据处以罚款。对GDPR来说,罚款最高可达公司收入的4%——哎哟。

断断续续的访问 :分析师会变得暴躁,当他们无法访问他们所需要的东西时,因为这些东西无法加入到他们的规范用户表中,所以他们会变得暴躁。这些数据孤岛要么造成不透明,要么需要重复流程,这两者都不是积极的结果。

狭隘的决定 :虽然数据消费者可以通过用户友好的点解决方案快速行动,但对于复杂的决策,他们可能需要专家来考虑实验设计、采样偏差和混淆因素。整个部门可能会围着马车,朝着一个不会从根本上增加业务价值的目标前进,或者以任意的方式进行衡量。

那么,数据团队如何识别隐藏在暗处的数据孤岛呢?他们能否以此为契机,发现其数据平台的弱点,并通过鼓励或强迫的方式吸引消费者?

在我看来,答案是肯定的。让我们看看数据孤岛在哪里,以及如何打破它们。

数据竖井1:转换和预聚合

但是在我们谈论数据消费者之前,让我们不要让我们自己作为数据专业人员完全地摆脱困境。我们在不切实际地努力满足不断增长的数据需求的同时,在我们团队的能力范围内工作,创建了我们应得的数据孤岛。

前几天我们遇到的数据事件是由于添加到我们的技术堆栈中,这将一些跟踪信息引入到流入我们应用程序的数据结构中。是的,相信我,我知道这很讽刺。

当数据保存到S3中,然后被数据块接收时,它只是部分加载,所以我们的管道中有丢失的数据。

我们的事后分析得出结论,我们的工作过于复杂,有太多的转换。作为最佳实践,我们应该在关键检查点将作业分解为一系列更小的转换,这些转换会写入可监控的表中,这将触发蒙特卡罗容量警报。

在处理老派的ETL和商业智能实现时,我见过类似的场景。数据是为性能而预先聚合的,底层对于负责诊断关键指标暗中下降的分析师来说是不可见的。如果分析师知道基础数据是如何转换的,他们就很幸运了,更不用说能够成功找到下降的原因了。

虽然商业智能工具会吹捧它们的数据准备能力,但这最终会变成对工具之外的团队不可用的另一个业务逻辑筒仓。显然,最后一英里操作有一些好处,也许BI中的“不超过SELECT*”这样的规则太苛刻了,但是任何可重用的语义都必须对您的团队广泛可用。

解决办法 :将复杂的转换或SQL查询分解成不同的检查点,这些检查点会写出数据质量受监控的表。确保您的业务逻辑不会被锁定在只有部分用户可以访问的单一工具中。

数据筒仓2:电子表格

在许多组织中,电子表格仍然是使数据民主化的最成功的方式,即使它们可能偶尔会成为数据团队痛苦和嘲笑的来源。

我们在财务部门的合作伙伴可以使用PC和VLOOKUP做一些了不起的事情,根据我的经验,没有什么比将表格放入Google Sheets并与合作伙伴合作手动添加标签更好的方式来民主化新数据的原型,这些标签是他们在分析中看到的有意义的属性。

当电子表格从原型进入生产阶段时,它就变成了一个数据仓库。或者换句话说,如果您不止一次看到同一个电子表格在业务运营中发挥作用,那么是时候将逻辑向上游移动,创建更系统的东西了。

解决方案: 对于数据团队来说,一个窍门是定期检查用于指导业务的庞大的电子表格,或者可能位于共享驱动器中的电子表格,这些电子表格可能有一些复杂的公式或宏位于您的团队根据其规范提供的数据之上。

这种回顾通常会揭示解决您的数据平台中的差距的方法,并且可以帮助您将转换带到上游以增加可观察性和可伸缩性。您甚至可以为更广泛的应用开发新的标准化指标的机会,如生命周期价值(LTV ),并在更精细的层次上生成它们。

数据孤岛3:“一体化”解决方案–ESP、CDP、DMP、A/B

如果做错了,这些可能是最难控制的筒仓。

大部分营销技术堆栈像电子邮件服务提供商和营销自动化平台一样,领先于现代数据仓库的进步而脱颖而出。这意味着提高影响力的最便捷方式是采用一体化解决方案,直接收集、管理和向营销人员提供数据。这种孤岛造成的一些最紧迫的问题是,这些系统很快经历了客户群的无序蔓延,并且分割的活动通常缺乏衡量。

早在我做咨询的时候,我就评估过一个大型电信公司在“微定位”不到客户群的1% 因为他们在不知不觉中把活动过滤给了满意的顾客每个 复杂分段中的属性。

但是几年前我们有了转机——数据团队和技术现在能够足够快速和灵活地跟上业务发展的速度,同时利用仓库中丰富的数据释放新的机会营销人员和其他业务合作伙伴看到了数据团队的价值,而不是绕过它。

这些营销第一的解决方案正在适应。无论您是选择现代的CDP还是反向ETL来将数据传输到营销人员手中,必备的特性是在您的企业数据仓库上进行收集、转换和基本的分段操作。

解决办法 : 我发现,让营销团队参与进来的最佳方式是创建尊重和满足他们对速度和自主权的需求的系统,同时合作确保强有力的治理和衡量是解决方案的一部分。

我的推荐?主动消除孤岛

让睡觉的狗躺着可能很有诱惑力,但是,在我看来,数据团队应该积极主动地消除数据孤岛或任何“影子数据”系统。

我通常选择梦想领域的方法——“如果你建造了它,它们就会到来。”(这种方法可能更类似于收集需求、确定项目范围、获得批准、构建最小可行产品、获得反馈、迭代,它们就会到来——但这并不简洁)。

但是,如果您构建了它,但他们没有来,那么您需要解决这是否是您的技术解决方案的失败,缺乏组织的认同,或者完全是其他原因。然后,您需要找到一个解决方案,让您走上打破孤岛的正确道路。

毕竟,数据最终是数据团队的责任,消费者将做他们需要做的事情来访问它。作为数据领导者,我们前进的最佳途径是接受这一现实,并采取措施缓解它。