新闻


数据行为一种新兴的坐褥要素,最大的价值在于数据的分享、探望和摆布。在数据驱动的寰宇中,企业越来越防范将其数据回荡为有价值的居品,以便在通盘企业中舒缓探望和使用,最终宗旨是向数据使用者提供预构建的数据居品,从而更快地大领域分享、探望、摆布数据,激励数据的潜能。
数据居品如限度面板、论说、API、数据可视化、机器学习模子等,具有可权衡的价值况兼可重用,旨在提供确切数据来处罚业务问题。这种对可推广、纯真数据探望的需求催生了数据编织和数据网格等架构方法,以处罚当代数据环境的复杂性,并开释数据钞票的全部后劲。
Data Fabric的中枢价值在于整合数据资源,约略数据探望,自动化处理数据,保险安全合规。而Data Mesh则罗致漫衍式数据架构方法,将数据系数权分派给跨职能的领域团队,由这些团队向最终用户提供数据居品。
因此,Data Fabric和Data Mesh正成为企业为当下和改日选择数据架构的两种主要选择,亦然构建数据空间,终了数据价值的蹙迫旅途。
Data Fabric:以数据为中心的企业的“必备”架构
Gartner将“数据编织Data Fabric”列为“2021年十大数据和分析技巧趋势”之一,并预测到2024年,25%的数据管制供应商将为数据编织提供无缺的框架。
另一家商场接洽公司Forrester推测,目下有20%的组织罗致了多个云,展望这一数字将在改日三年内翻一番,也为Data Fabric处罚决议提供商带来了契机。Data Fabric在现在的多云和搀杂云行业中进展着蹙迫作用。
为什么要发展Data Fabric?从应用上看,跟着数字化发展,企业数据源加多,数据量捏续增长,数据与应用孤岛大批裸露。
企业的业务数据神气已从以结构化为主,转变为多种类型并存,像结构化、半结构化、非结构化数据共存,对及时或事件驱动的数据分享需求也在攀升。
同期,企业上云趋势下,在搀杂数据环境中跨平台、跨环境进行数据的网罗、探望、管制和分享变得极为困难,要从分散且高度关联的数据获取可履行洞见,挑战巨大。
这些数据管制难题亟待处罚,企业急需移交数据钞票各种化、漫衍式、领域雄壮和复杂等问题。
从技巧上看,多年来,为援救数据分析出现了许多种架构。最流行的是企业信息工场(Corporate Information Factory)和数据仓库总线架构,答应企业在构建企业数据仓库(EDW)时对数据分析的需求。
但跟着技巧和时间的朝上,数据科学界所需的分析和对及时数据进行的及时流分析仅靠企业数据仓库环境根底无法援救。
于是数据编织Data Fabric应时而生,Forrester分析师Noel Yuhanna于2013年界说Data Fabric。从见识上讲,Data Fabric大数据结构本质上是一种元数据驱动的方式,用于勾通不同的数据器具荟萃,以有凝华力的自助业绩方式处罚大数据技俩中的要道痛点。
行为新兴的数据管制和处理方法,Gartner将Data Fabric界说为包含数据和勾通的集成层,通过对现存的、可发现和可推断的元数据钞票进行捏续分析,来援救数据系统跨平台的策画、部署和使用,从而终了纯简直数据委用
正如Gartner所说,Data Fabric是一种跨平台的数据整合方式,能集成系数业务用户信息,具有纯真弹性上风,让东说念主们可随时获取数据,还能大幅镌汰集成策画、部署和治疗的时间。Data Fabric数据编织的宗旨是创建一个可以涵盖系数时势的分析和数据架构,可以用于任何类型的分析,并让系数需要的东说念主都能无缝的探望和分享。
Gartner界说的Data Fabric智商架构如下:

如何清晰Data Fabric呢?Data Fabric是一种端到端的融合架构,它将组织所需的主要数据和分析器具整合在沿途。摆布AI和机器学习等技巧,通过高等功能得到增强,以自动化和优化数据管制历程,从而在您的系统和平台上创建融合、一致和集成的数据环境。这种融合的架构通过自动化元数据管制和AI驱动的洞悉动态生成数据居品,从而灵验地摒除孤岛并培养敏捷性。
来源,Data Fabric是一种数据架构想想,并非特定器具集,旨在以融合方法管制异构数据器具链,把确切数据从各谋略数据源,以纯真且易被业务清晰的方式提供给系数谋略数据阔绰者,创造比传统数据管制更多价值。
可将Data Fabric联想成一张虚构网,网上的节点是IT系统或数据源,就像大脑神经元勾通传递信息雷同,是一种虚构勾通,能让数据飞速流动并融合提供业绩。
其次,Data Fabric处罚决议提供数据探望、发现、转机、集成、安全、治理、复旧和编排等领域的功能。
第三,Data Fabric和数据集成不同。数据集成侧重于会通异构存储数据,构建融合视图,包含数据团结、转机、清洗等操作,专注于数据的复制和转移,如ETL加工等。而Data Fabric是架构想想,数据虚构化是其要道技巧之一,数据虚构化可在不转移数据情况下从源泉探望数据,具备跨平台敏捷集成等功能。
另外,数据湖仅仅Data Fabric的异构数据源之一,数据编织通过融合框架援救漫衍式环境中的数据阔绰。
终末,全面整合后的数据分析架构有好多刚正,如:让数据管制更舒缓,让数据更安全、更可靠、更一致;让数据和分析钞票民主;贬低了复杂性,促成了协同的、纪录在案的数据血统和数据使用历程等。
数据编织Data Fabric是如何终了的?要达到数据编织的宗旨,需要具备以下五个智商:
其一,数据源勾通智商。数据编织概况勾通丰富各种的数据源,像企业里面的数据库、数据仓库、数据湖、BI、应用系统等,也包括非结构化数据源如物联网传感器等,还能从外部全球数据获取数据。
其二,纯真数据目次智商。它能自动识别获取元数据,借助ML/AI分析数据语义打标签加深业务清晰,进而构建学问图谱,将碎屑化元数据有序组织,便于东说念主机清晰和数据处理,为搜索、挖掘、分析助力。
其三,基于学问图谱的智能策画与推选智商。学问图谱可加速数据集成策画,终了快速检索自动填充,还能进行智能推选,把合适的数据在合当令间发送到合适的东说念主。
其四,动态集成与自动编排智商。基于前边的基础可终了动态集成,罗致现实和网格技巧,同期数据自动化编排可简化优化集成历程。
其五,面向阔绰者的自助智商。能为各种数据用户提供业绩,答应专科IT用户复杂需乞降业务东说念主员自助式数据处理需求。
Data Fabric的要点供应商。商场接洽公司对Data Fabric企业有详备的分析。

Forrester将Denodo、Informatica、Oracle等评为Enterprise Data Fabric领域的诱骗者。在论说中,Denodo在“数据探望、委用和数据居品”步调中取得高分,在“部署和管制”以及“数据处理和事务”步调中取得高分之一。Denodo还在Roadmap和Partner Ecosystem步调中取得了高分。
凭据该论说,Denodo非常允洽专注于企业范围数据结构政策的客户,以援救及时期析、客户360度、数据工程、数据科学、物联网分析、运营洞悉和预测分析用例等。
目下,一些器具供应商(包括Informatica和Talend)提供包含上述许多功能的Data Fabric,而其他器具供应商(如Ataccama)则提供Data Fabric的特定部分。
Google Cloud通过其新的Dataplex居品援救Data Fabric方法。Data Fabric中各个组件之间的集成时常通过API和通用JSON数据神气进行处理。
Data Mesh:克服湖仓痛点,让数据跨组织应用
在领有了Data Fabric之后,为什么还要推出Data Mesh?
数据仓库旨在存储数据分析师用于回溯SQL分析的大部分结构化数据,由分析师用于报恩关联结构化数据的业务问题;数据湖主要存储数据科学家用于构建预测性机器学习模子的大部分非结构化数据。
而以及时数据流和对云业绩的接受为记号的新一代系统,并莫得处罚数据仓库和数据湖之间潜在的可用性差距。
许多组织构建和治疗用心策画的ETL数据管说念,以试图保捏数据同步,也推动了对“高度专科化数据工程师”的需求。然而数据转机不成由工程师硬连线到数据中,而应该是一种过滤器,应用于系数用户都可以使用的一组通用数据。
因此,数据大约以原始时势保留,况兼一系列特定于领域的团队在将数据塑变成居品时经受这些数据,而不是构建一组复杂的ETL管说念,将数据转移和转机到专诚的存储库中,以便各个领域对其进行分析。
漫衍式数据网格Data Mesh便是通过一种新架构来处罚这一问题。

Data Mesh让数据使用者可以不再是数据的旁不雅者,而是在数据功能的策画、开荒和管制中进展作用。
漫衍式数据网格Data Mesh是Zhamak Dehghani于2019年在商讨公司Thoughtworks使命时创造的,旨在匡助处罚传统蚁合式架构(如数据仓库和数据湖)中的一些基本盘曲。
Data Mesh是一种用于分析和数据科学的去中心化数据管制架构。传统的数据架构时常蚁合数据,导致可推广性、纯真性和治理方面的挑战。Data Mesh 提议了一种去中心化的方法,将数据视为居品,并由组织内的去中心化团队或领域(如营销、销售和客户业绩)进行管制。
过去,蚁合式基础设施团队将管制跨域的数据系数权。然而,Data Mesh模子将这种系数权迁徙给坐褥者,可以在策画API时辩论到主要数据使用者的利益。
除了注重对数据进行编目、树立使用和权限策略以及界说语义以外,这种域驱动的方法还治疗一个蚁合式数据治理团队,以实施围绕数据的步和洽实践。
Forrester以为,Data Mesh让数据使用者可以不再是数据的旁不雅者,而是在数据功能的策画、开荒和管制中进展积极作用。
为此,提议了Data Mesh框架的四个原则,即用于高下文、清晰和牵累的域系数权,用于环境信任和限度的皆集计较数据治理(FCDG),通过自助业绩推广数据使用和业务价值,数据即居品,用于分派和管制数据功能的交易价值。
Forrester也提议,有五个成分会影响Data Mesh在当代数据基础设施中的应用,即语义学、界说和开荒数据居品、投资组合管制即数据居品管制、DataOps的作用,以及与强劲的主题内行皆集。
Data Mesh是数据架构中的一个新兴见识,它为企业提供了多项刚正。
去中心化的数据系数权。通过在特定领域的团队之间分派数据系数权,Data Mesh有助于民主化、摒除瓶颈并使团队概况作念出关联其数据的决策,加速鼎新速率,更好地与业务宗旨保捏一致。
改变了数据探望和可推广性。Data Mesh通过增强数据探望、安全性和可推广性来改善使用数据的团队的体验和后果。其宗旨是通过在数据系数者、坐褥者和使用者之间树立成功勾通,普及业务用户对数据的可探望性和可用性。
成心于普及数据质地和激动数据治理。蚁合式架构可能难以治疗数据质地和实施治理步调,因为这些职责时常蚁合在数据团队中。Data Mesh 饱读吹特定领域的团队领有其数据的系数权,从而普及数据质地并合适治理步调。
成心于摒除数据孤岛和不幸规复。Data Mesh的一个显赫上风在于它概况减少数据孤岛。通过部署自助式数据基础架构,可以舒缓地跨域探望数据,从而促进互助并加速数据发现的次第。
便于进行东说念主工智能和机器学习。Data Mesh架构中的数据分散化成心于部署AI 和ML选项,依赖于平庸而各种的数据集来高效运转。通过更舒缓地探望数据和资源,团队可以更快地迭代AI和ML实验和原型,有助于优化模子并跟着时间的推移普及其性能。
宽广企业推出了Data Mesh交易化处罚决议。
2024年第3季度的Forrester Wave评估了12家企业“企业数据目次”的决议,Atlan被评为诱骗者。企业数据目次如故成为Data Mesh结构落地的一种交易化居品。
跟着组织寻求概况弥合复杂数据集、治理、业务洞悉和AI援救之间差距的处罚决议,数据目次、数据质地器具和数据治清晰决决议正在会通。在一个拥堵、开阔的商场中,Atlan通过为系数业务和技巧变装提供“自动化AI/ML元数据、GenAI 扶助发现、端到端复旧、及时处理和访佛 Netflix 的个性化体验”而被评为诱骗者。它提供高下文感知的关系映射、复杂的使命历程、第三方应用法子小部件、动态探望限度和逐日提要,使用户概况了解和限度数据生态系统。
Snowflake Data Mesh使组织概况从整时势架构过渡到分散、可推广的数据生态系统。它摆布Snowflake的云原生平台来终了域驱动的系数权、无缝数据集成和皆集治理。
Snowflake Data Cloud便是这么一个平台。Snowflake的多集群分享数据架构整合了数据仓库、数据集市和数据湖,使其成为设立自助式数据网格平台的一个可以的选择。
2023年,Ascend.io在公司的Data Pipeline自动化平台中集成新的Data Mesh功能,使企业初次概况从单个限度台跨多个数据云分享和相连数据。
Ascend平台中整合的全新Data Mesh功能是通过结合Ascend特有的两项技巧而开荒的:可推广架构可在融合架构上援救多个云数据平台即Snowflake、Databricks、BigQuery和开源Spark);Ascend的指纹识别技巧内置于DataAware Control Plane中,使公司概况将代码和数据相连在沿途,追踪复旧并确保数据无缺性。通过将这两项功能相结合,公司可以在通盘数据人命周期中跨数据平台传输时全面追踪、自动化和优化数据。
Starburs公司开荒了名为Trino的漫衍式SQL查询引擎Presto版块。Starburst将 Trino(过去称为PrestoSQL)定位为“Data Mesh的分析引擎”,可以对存储在一系列数据库和文献系统中的数据履行SQL查询。它领先策画为在Facebook修改后的Hadoop集群中运转,但如今最大的用例是查询存储在S3或S3兼容对象存储系统中的数据,以及Databricks的Delta Lake等湖仓一体。
Apiphani推出了一套新的业绩Apiphani Data Pipeline,专注于匡助客户构建一个推动高后果、可靠性和价值的Data Mesh处罚决议,为客户最蹙迫的交易智能、机器学习、东说念主工智能和数字居品奠定了基础。
Apiphani Data Pipeline包含当代数据和分析平台所需的系数组件,包括云原生器具和数据目次处罚决议。除了中枢技巧平台以外,Apiphani Data Pipeline 还围绕托管业绩构建,允许客户霸术、实施和治疗生成的数据管说念,产生可靠、简化的自助式数据,为最终用户、数据专科东说念主员、工程师、业务司理和高管带来价值。
Data Fabric Vs. Data Mesh:使用正确的架构进行数据管制
正如咱们所看到的,Data Fabric与Data Mesh之间存在相似之处,但也有一些相反。
Data Mesh是一种高度分散的数据架构,旨在移交包括费事数据系数权、费事高质地数据和推广瓶颈在内的挑战。Data Mesh的宗旨是将数据视为一种居品,每个来源都有一个数据居品系数者,可以成为跨职能数据工程师团队的一部分,克服了传统数据湖和数据仓库的问题。
Data Fabric是一个勾通数据和分析历程的一体化集成的架构层。它摆布现存的元数据钞票来援救跨系数环境和平台的策画、部署和正确使用数据。Data Fabric旨在通过自动化历程加速数据推理并提供及时视力。它将数据、分析和姿色板集成,并用作管清晰决决议,允许在漫衍式环境中进行探望。
方法相反:自动化与东说念主工包容。Data Mesh从以东说念主员和历程为中心的角度处理数据,并将数据视为居品。
Data Fabric摆布东说念主工和机器功能马上探望数据或在适其时援救其整合。它将勾通数据源、类型和位置的技巧与探望数据的不同方法相结合。Data Fabric捏续识别、勾通和丰富来自不同应用的及时数据,以发现数据点之间的关系,通过构建一个图表来存储算法可用于业务分析的互连数据形色来终了这少许。
数据存储相反:蚁合式与分散式。在Data Mesh中,数据分散存储在公司里面的域中。每个节点都有腹地存储和计较智商,况兼不需要单点限度即可运转。从本质上讲,原始数据保留在域中,并为特定使用案例生成数据集副本。
在Data Fabric中,数据探望通过高速业绩器集群进行蚁合,以终了Data Fabric中的集聚和高性能资源分享。
构建方式的相反。Data Mesh旨在取代数据湖成为数据和分析领域主导架构,引入了落寞于特定技巧的组织视角。其架构罢黜领域驱动的策画和居品想维,以克服与数据谋略的挑战。Data Mesh数据网格文化是对于勾通东说念主们并创建皆集职责结构。
Data Fabric摆布元数据来推动推选,而Data Mesh则与主题内行合作来监督域。这些域是可落寞部署的微业绩集群,用于与用户通讯。它由代码、使命流、团队和技巧环境构成。
Data Fabric与技巧、业务和运营数据配合使用,况兼主要与技巧、业务和运营数据兼容。可视化器具使技巧基础设施易于施展,并匡助组织管制其存储资本、性能、安全性和后果。此外,公司可以在各种数据存储库上虚构部署单一Data Fabric,以管制不同的数据源和下贱使用者。

数据探望相反:API与受控数据集。在Data Mesh中,数据通过受控数据集提供。来源,将信息从部门数据存储复制到分享位置。在Data Fabric中,数据通过基于宗旨的API提供。数据被复制到特定使用案例的特定数据蚁合,况兼领稀有据的业务单元处于限度之中。
使用案例相反。Data Mesh是搀杂云集聚的空想选择。Data Fabric援救单点数据探望,处罚数据质地和存储问题,并处理安全威逼。

奢睿选择源于数据锻真金不怕火度
Data Mesh和 Data Fabric是当代数据架构范式,旨在处罚在复杂的漫衍式环境中管制数据的挑战。固然它们有一些相似之处,也具有极端的特征,使它们适用于不同的用例,以致可以组合使用。
Data Fabric 和Data Mesh两个数据架构见识都是互补的,可以并存。组织可以在不同的用例中摆布这两种方法。
凭据微软的数据和AI处罚决议架构师James Serra的说法,这两个见识的分散在于用户如何探望数据。Data Fabric 和 Data Mesh提供了跨多种技巧和平台探望数据的架构。但Data Fabric以技巧为中心,而Data Mesh则侧重于组织变革。Data Mesh更多地与东说念主员和历程关联,而不是架构;而Data Fabric是一种架构方法,它以一种智能的方式处理数据和元数据的复杂性,况兼可以很好地协同使命。
IBM网站著作炫耀,Data Fabric和数据网格Data Mesh可以共存。事实上,Data Fabric可以通过三种方式终了Data Mesh:
□ 为数据系数者提供数据居品创立功能,如对数据钞票进行编目、将钞票转机为居品以及罢黜皆集治理策略;
□ 使数据系数者和数据使用者概况以各种方式使用数据居品,如将数据居品发布到目次、搜索和查找数据居品,以及摆布数据虚构化或使用API查询或可视化数据居品;
□ 摆布来自Data Fabric元数据的洞悉,通过在数据居品创建过程或监控数据居品过程中从模式中学习来自动履行任务。
组织的数据锻真金不怕火度在很猛进程上影响着哪个框架更合适。对于数据锻真金不怕火度相对较高且具稀有据驱动型文化的组织,Data Mesh可能是一个可行的选择。这些组织时常领有完善的数据治理模子、锻真金不怕火的数据管说念以及随时准备对我方的数据钞票注重的团队。
对于数据治理仍在发展的组织,突出是不同团队之间可能莫得雅致协调的组织,Data Fabric可能是最好选择。它允许蚁合治理,同期使组织概况在漫衍式环境中逐渐推广其数据架构。Data Fabric也更允洽元数据锻真金不怕火度较高的组织,因为它专注于从元数据中推动智能。
不管选择哪种架构,元数据管制都是Data Mesh和Data Fabric的要道要素。元数据(如技巧、运营或业务元数据)对于终了存效的数据发现、治理和影响分析至关蹙迫。
Data Mesh和Data Fabric两个架构都有其优点,但淌若莫得强劲的数据无缺性基础和明确的元数据管制策略,都可能无法告捷。在罗致这两种方法之前,组织必须确保领有必要的基础设施、数据文化和治理,以最大截止地进展其数据的价值。最终宗旨是提供确切、可推广的数据居品,从而提供交易价值,而领有准确、一致和情境化的数据对于终了信任至关蹙迫。
文:放飞 / 数据猿
责编:扫视深空 / 数据猿


海量资讯、精确解读,尽在新浪财经APP

