您的数据湖是一个只写存储器

警报在凌晨两点响起：“47号机器运行温度超出规范15度。”工厂经理问了一个显而易见的问题：“该供应商的其他哪些机器也出现了温度异常？”

数据团队的回答是什么？“我们有五年的传感器数据！但构建一个查询管道需要两周时间。”

因此，他们没有执行本应在几秒钟内完成的查询，而是派遣了一名技术人员。成本：50,000美元，用于车辆出勤、专家工时以及检查可能并无大碍的机器所导致的生产停机损失。

这就是现代数据基础设施中不为人知的秘密：你坐拥PB级的传感器数据，但在你最需要它的时候，派人开车前往现场比查询你的数据湖还要快。你构建了一个只写存储器——数据只进不出。

最昂贵的查询是你无法执行的查询

让我们看看真实的数据。对于基本问题，车辆出勤成本为500至2,000美元。如果加上专家费用、紧急加班费和生产停机损失？成本将超过50,000美元。与此同时，你的工厂每天生成100GB的传感器数据，存储成本为每月每GB 0.02美元。

这里有一个真实的例子，足以让你的首席财务官痛哭流涕：一家制造客户拥有8PB的机器传感器数据。他们为自己的“数据驱动未来”感到自豪。但他们仍然进行每月的物理检查，每年花费200万美元。

更糟糕的是？预测90%此类故障所需的数据已经存在于他们的数据湖中。他们只是无法足够快速地获取这些数据以发挥实际作用。

他们在存储上省下了几分钱，却在本可避免的车辆出勤上挥霍了数万美元。这就像把你的大楼着火时，灭火器却锁在保险箱里一样。

对于那些年轻到不记得的人来说，只写存储器曾是一个关于硬件的笑话，指那些接受数据却从不检索数据的硬件。但现在这不再是个笑话。它就是你的数据架构。

每个数据湖都会经历三个可预测的衰退阶段：

第一阶段 - 乐观：“我们正在捕获一切！每个传感器，每个时间戳！”

第二阶段 - 现实：“等等，哪个表里有2023年第三季度的温度数据？是sensor_temp_final还是temp_readings_v2_ACTUAL？”

第三阶段 - 挫败：“直接派个技术人员去吧。等我们建好管道，他们都能开车往返两趟了。”

每次失败的查询都会形成一个恶性循环。人们对数据的信任度降低，查询次数减少，直到你的数据湖变成数据坟墓。

这种衰退是系统性的：

模式混乱：你的传感器供应商的固件更新改变了数据格式。没有人记录这一变化。现在你的一半读数是摄氏度，另一半是华氏度。

发现噩梦：你有50,000个命名如temp_sensor_final_v2_USE_THIS的表。你的数据科学家花费80%的时间扮演考古学家。

质量衰退：一个传感器已经连续三个月写入负温度值。没有人注意到，因为没有人去查询。它只是流入湖中，污染下游的所有数据。

我们解决了应用程序的“部署即遗忘”问题，但却为数据创造了“存储即遗忘”的局面。我们为摄入功能正常工作而欢呼，却忽视了没有人能真正使用我们摄入的数据。

停止以存储量来衡量数据。开始以你回答问题的速度来衡量数据。

三个原则将把你的数据湖从负债转变为资产：

可发现性

免责声明：本文内容来自互联网，该文观点不代表本站观点。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容，请到页面底部单击反馈，一经查实，本站将立刻删除。