方案网

Hi, 请登录

什么是外部数据(如何构建外部数据应用实例)

开发内部数据产品,无论是功能强大的执行仪表板,还是由机器学习驱动的营销预测买家模型,或者是BI团队的新客户模型,都是数据团队为公司增加价值的最有效方式之一。

什么是外部数据(如何构建外部数据应用实例)

但是,开发一个外部数据产品却有些不同:虽然更容易增加价值,但也更困难。这是一个不同的动作,需要你的团队构建新的习惯。

同时,开发一个外部数据产品也是一种新的思维方式,需要更高水平的协调性、纪律性和严谨性。

这并不是说它不能由同一个团队完成,也不是说你的内部数据使用者不能得到与你的外部客户相同的服务水平。

餐厅销售点提供商Toast公司的数据工程经理Noah Abr**son最近谈到了他们在这方面的经验:“我们的一大价值是为我们的客户提供商业洞察力。餐馆,随着时间的推移,他们的表现如何?他们昨天的销售额是多少?谁是他们的主要客户?与我们的餐厅客户互动是数据平台团队的工作……我们说我们的客户都是Toast员工。我们试图让他们所有人都能获得尽可能多的数据。我们的团队为所有的内部数据访问提供服务,从产品到市场到客户支持到硬件运营。”我也很幸运,在过去的工作中,我有机会在Monte Carlo的数据可观测平台中构建内部数据产品以及外部数据产品。

在这篇文章中,我们将总结这些经验,并介绍数据团队如何通过了解与构建内部产品不同的5个关键维度来成功推出外部数据产品,其中包括:

但首先,重要的是要了解到底什么是外部数据产品或数据应用,以及开发出来的应用类型将如何指导做出决策。

什么是外部数据产品?有哪些数据应用实例?它们如何影响你的决策?

外部数据产品是面向或影响客户的任何数据资产。范围可以从用于客户计费流程的数据集到完全**的数据密集型应用,并有自己的用户界面提供给客户操作。

目前数据领域最热门的趋势之一是,公司在其SaaS产品中创建数据应用程序或添加额外层,以帮助客户分析数据 ,就像前面提到的Toast公司一样。

S***flake有一个有用的列表,列出了五种常见类型的数据应用类型(完整的参考架构):

然而,外部数据产品不需要是完全内置的应用程序,也不需要集成在主要的SaaS产品中。例如,Monte Carlo公司的做法就不是这样。

我们是一个数据密集型的SaaS应用,可以在用户界面中进行监控、**和提供线索。还可以在用户界面中向客户提供洞察力报告,并为他们提供选择,使用S***flake数据共享集成在他们自己的S***flake环境中。

在后一种情况下,我们只是为客户提供构件,使其能够进一步定制他们想要的可视化方式或与其他数据相结合。

对什么是数据应用或外部数据产品有一个全面的认识是很重要的,因为这能促使团队确保给予更高的严谨性,最好是在工程之外出错。

下面这些问题很重要:

从后续五个维度评估外部数据产品也很重要。

架构

与内部产品一样,外部数据产品可以利用各种数据云服务作为其平台的基础,包括数据湖或数据仓库。

然而,许多人会利用像 S***flake这样的解决方案,因为它能优化大规模存储和查询关系型数据的方式。这可能是你的团队第一次讨论多租户架构。在为外部客户服务时,这是一个很大的变化和决策点。

当利用数据仓库作为产品的基础时,S***flake描述了三种多租户设计选项:

每个选项都有优点和缺点,但总的来说,选择取决于什么需要更有效地伸缩—共享计算/存储还是基于角色的数据访问 。

大多数内部产品都是在同一公司交付的,要遵守同样的公司内部政策和法规。例如,如果营销团队的数据资产与法律团队的数据资产在同一个仓库中,他们不会感到不安。但外部客户可能会更关心。

当然,你可以在你的堆栈中做出其他的架构选择来减轻这些权衡。例如,Monte Carlo利用S***flake的MTT多租户架构,使用行业的最佳实践,如标记化,从逻辑上分离客户数据。此外,我们使用一个混合架构,将数据收集器嵌入客户的环境中(但通常不总是作为自己的虚拟私有云)。

这意味着数据永远不会离开其环境。PII和敏感数据被抽象化,我们提取的是非敏感日志和评估其数据系统健康状况所需的指标聚合。

架构决策过程的另一部分,类似于内部数据产品,是了解用例和工作负载。频率、规模和所需的时间表是多少?客户会在设定的时间接收数据、能够按需查询数据、实时访问数据,还是三者兼而有之?正如我们之前提到的,了解工作负载对于做出具有成本效益的架构选择非常有帮助。然而,与外部产品不同的是,可能有更多种类的用例需要支持。

在构建Monte Carlo时,我们不仅要考虑我们的关键任务生产的工作负载,还要考虑我们的内部团队如何访问这些面向外部的数据。在这种情况下,进行内部分析和数据科学研究,作为开发我们的机器学习驱动的异常***的一部分。

用户期望

假设你有一个数据产品,你的用户通常可以信任它来帮助回答他们的一些问题。数据每天都会刷新,仪表板有一些可点击的元素,他们可以在其中深入了解详细信息。

这对一些内部用户来说可能已经足够了。他们可以完成他们的工作,表现要比没有仪表板时更好。另一方面,你的外部用户却很生气。他们想信任你的产品,想让它实时地回答他们所有的问题。

他们凭什么不该生气呢?毕竟,他们是为你的产品买单的,他们本可以选择竞争对手的产品。

当数据是产品时,数据质量就是产品质量。这个简单的事实就是为什么一些最热衷于采用我们的数据观察型平台的人正在利用它来支持他们的数据应用。例如,多渠道数字**供应商Choozle,在推出大规模平台升级到一流的数据可靠性时,采用了数据观察能力。

Choozle公司首席技术官亚当伍兹说:“如果没有这样的工具,我们可能会对最终结果的表格进行监控,但这可能会隐藏很多问题。”你可能看不到与表格中成千上万的**活动中的一小部分相关的内容,但运行该活动的**商将会看到它。有了[数据可观察性],我们就无需妥协。我们可以对所有的3500个表进行监测。

当数据面向客户或为面向客户的应用程序提供动力时,质量差甚至会损坏产品。例如,创建具有相同主键的重复对象的数据问题实际上导致了Netflix的中断。

在规模和速度方面,外部客户从不想等待数据,他们想要更多的数据维度,以便他们可以切分和拼接到他们心中的内容。例如,我们的一位金融服务客户不仅关注数据新鲜度,还关注数据延迟,换句话说,即在支持查询的同时近乎实时地加载和更新数据的能力。

S***flake数据共享和S***pipe可以帮助减少数据延迟。Blackboard通过使用S***pipe连续加载数据并从S3批量加载,解决了他们的延迟挑战,并使ETL工作负载的运行速度比以前快400倍。

缩放数据维度也有助于区分。再次以Choozle为例,根据Ad**的升级平台:S***flake使我们能够将所有信息提供给我们的用户。例如,我们可以显示前20个邮政编码的**活动效果,现在**商可以根据需要访问美国所有 30,000个邮政编码的数据。

最后,在数据安全和隐私方面,你的外部数据产品可能不仅需要在理论上考虑 PII,还需要通过SOC II等行业标准来实际证明有效的安全控制。

投资回报率

绝大多数的数据团队都没有根据硬性的投资回报率进行评估。事实上,具有讽刺意味的是,在谈到业绩时,往往缺乏指标,据数据平台产品管理总监布兰登贝德尔(Brandon Beidel)说,最初在Red Ventures就是这种情况。

下一层是衡量性能。系统性能如何?如果有很多问题,那么也许我们没有以有效的方式构建我们的系统。或者,它可以告诉我们在哪里优化我们的时间和资源......拥有记录也能使数据团队的评估从“我觉得团队做得好/做得不好”的感觉演变为更基于数据的内容。

内部数据产品也是如此。通常情况下,成绩是临时获得的,“由于我们的新客户数据平台,我们的**支出回报率增加了3倍”,而不是根据生产成本或每位用户的成本进行衡量。当你构建一个外部数据产品时,这种好运就消失了。产品经理需要了解如何定价,而且它必须是盈利的(在某些时候)。他们需要知道构建产品的启动成本,以及每个组件在提供服务时的成本(商品成本)。

这对那些没有为其数据产品构建内部收费模式的数据团队来说

试看结束,如继续查看请付费↓↓↓↓
打赏1元才能查看本内容,立即打赏
版权声明: 仅供个人学习参考 (禁止商用),本文内容由互联网用户贡献,该文观点仅代表作者本人。本站不拥有所有权,不承担相关法律责任。如发现有侵权/违规的内容, 联系邮箱jkhui22@126.com,本站将立刻删除。

相关推荐

二维码
评论