仁科百华资料 数据目次与元数据目次有什么区别?
仁科百华资料
数据目次和元数据目次有一些相似之处,尤其是它们着实疏通的称号。固然它们有一些共同的功能,但这两个实体之间也有攻击的区别,大数据从业者应该了解这些区别。
元数据目次,或然也称为元数据库或时刻数据目次,最近一直是新闻焦点。若是您是 Datanami 的常客,您就会在上个月的 Snowflake 和 Databricks 会议上读到许多元数据目次的内容,其时这两个竞争敌手同意开源各自的元数据目次 Polaris 和 Unity Catalog。
那么什么是元数据目次?它们为什么攻击?
元数据目次
元数据目次被界说为存储形容数据的时刻元数据的场地,这些数据以表格结构存储在数据湖或Lakehouse中。
最常用的元数据目次是 Hive Metastore,它是形容 Apache Hive 表内容的元数据的中心存储库。天然,Hive 是一个干系框架,它允许 Hadoop 用户使用传统的 SQL(而不是 MapReduce)来查询基于 HDFS 的数据。
Hive 和 Hive Metastore 当今仍然存在,但它们正在被新一代时刻所取代。Apache Iceberg、Apache Hudi 和 Databricks Delta Table 等表体式与 Hive 表比较有许多上风,包括解救事务,从而晋升了数据的准确性。
这些表体式还需要一个时刻层——元数据目次来匡助用户了解表中存在哪些数据,并允许或间隔拜访这些数据。Databricks 在其 Unity 目次中解救这一功能。关于 Iceberg 而言,由 Dremio 工程师开荒的 Project Nessie 等居品力争成为 “事务目次”,为各式绽放和生意数据引擎(包括 Hive、Dremio、Spark 和 AWS Athena(基于 Presto)等)的数据拜访提供中介劳动。
Snowflake 开荒并发布(或同意发布)了 Polaris,行动 Apache Iceberg 生态系统的次第元数据目次。与 Nessie 雷同,Polaris 使用 Iceberg 基于 REST 的绽放式 API 来拜访 Iceberg 存储的 Parquet 数据的形容性元数据。然后,REST API 将行动 Iceberg 表中存储的数据与数据处理引擎(如 Snowflake 的土产货 SQL 引擎以及各式开源引擎)之间的接口。
数据目次
数据目次通常是第三方器用,公司用它来组织通盘组织中存储的所特等据。它们通常包括一些允许用户搜索其组织可能领有的数据的设施,这意味着数据目次通常具有一些数据发现组件。
许巨额据目次(如 Alation 的目次)还包括拜访甘休功能以及数据头绪追踪和处治功能。在某些情况下,一运转提供数据处治和拜访甘休的数据不断器用供应商(如 Collibra)也反治其身,也加入了数据目次和数据发现功能。
与元数据目次雷同,旧例数据目次,也即是某些业内东说念主士所说的 “企业 ”数据目次,亚洲欧美另类也在全力吞吃元数据,以匡助他们追踪各式数据资产。企业数据目次供应商 Atlan 的使命重心是长入不同数据集生成的元数据,并通过元数据 “甘休平面 ”杀青同步,从而确保业务见识不会过于失调。
当今,你可能思知说念它们到底有什么区别?它们齐追踪元数据,名字中齐有 “数据目次”。那么元数据目次和数据目次有什么区别呢?
到底有什么区别?
亚州色情为了匡助咱们解读这两种目次类型之间的区别,Datanami 最近采访了大数据规模进步的数据目次供应商之一 Collibra 的首席践诺官兼勾通首创东说念主 Felix Van de Maele。
“它们是齐全不同的东西。”Van de Maele 说,“若是你磋议一下 Databricks 的 Polaris 目次和 Unity 目次,AWS、谷歌和微软齐有我方的目次,这确乎是一种理念,即你不错在职何场地、任何云上存储数据......我不错使用任何一种数据引擎,如 Databricks、Snowflake、谷歌、AWS 等,来花消这些数据。”
但 Collibra 和其他企业数据目次所作念的事情判然不同,Van de Maele 说。
“咱们所作念的是提供更多的业务配景。”他说,“咱们提供的是所谓的学问图谱,也即是你实际界说和不断计谋的业务配景。比如我的数据质地何如?我的数据需要恪守哪些业务规章?我的数据需要恪守哪些阴私计谋?谁需要批准数据?咱们何如得回解释?何如进行认证?何如成立一个包含业务术语和明确界说的业务词汇表?”
“这与 Iceberg的Polaris目次(物理元数据)判然不同。这是一个信得过的区别。”他说。
Van de Maele 的居品解救新出现的绽放Lakehouse架构,这种架构让客户不错解放地将数据存储在绽放的表格体式中,如 Iceberg、Delta 和 Hudi,并使用任何引擎进行查询。他的客户(其中许多是资产 500 强企业)在许巨额据平台上存储数据,并使用 Collibra 数据智能平台匡助甘休和不断对这些数据的拜访。
不同的变装
客户应该显然,元数据目次和数据目次固然称号相似,但作用却判然不同。
“我分辨两者的格式是,咱们线路策略界说和不断,他们线路策略践诺。”Van de Maele 说,“实际上,我以为这是正确的架构。”
元数据目次通常不具备允许用户围绕数据拜访成立业务策略的功能。Van de Maele 说,举例,它们不会让你成立拜访甘休,使营销团队概况拜访总共客户数据,除了那些被璀璨为 “机密 ”的数据,在这种情况下,这些数据必须被屏蔽。
“咱们不错在 Databricks 中领有营销数据,在 Salesforce 中领有营销数据,在 Google 中领有营销数据,在东说念主们使用营销数据的任何场地,我齐需要确保正确的数据被分类和屏蔽。”他说,“因此,咱们在 Databricks、Snowflake、Google、亚马逊和微软中进行推送。”
Van de Maele 说,客户不错界说我方的数据拜访策略,而不需要 Collibra 这么的器用。毕竟,它最终仅仅 SQL。但这么一来,他们就需要其他格式来追踪散播在不同数据平台上的数百万列。Collibra的作用是瞻念察数据的存在和位置,然后确保客户按照公司的不断规章拜访数据。
同期,Collibra 的践诺机制依赖于元数据目次。Van de Maele 说,其他践诺机制曾经尝试过,如代理和驱动要领,但齐不收效。
“咱们以为,接收绽放表体式的元数据目次格式实际上是一种正确的格式。”他说,“咱们但愿这些数据平台概况原生地作念到这少量,不然可推广性和性能老是会成为问题。”
Databricks Unity Catalog 似乎是个例外。Databricks 上个月刚刚开源的 Unity Catalog 提供了对时刻元数据的底层甘休以及更高级次的功能仁科百华资料,如数据处治、拜访甘休、审计和头绪。在这方面,Unity Catalog 似乎不错与企业数据目次供应商一较上下。