开源php erp管理系统刚哥谈架构(十三)大数据软件开源版图(图)php开源 erp
2021-12-30
上一篇,刚谈架构(十三)大数据软件开源布局由于篇幅问题,没有详细介绍大数据开源布局各部分的内容。今天我们继续上一个话题,具体看看大数据开源图的各个部分。
我们为每个领域挑选了三个典型的选项,并为您做一个简单的介绍。
数据摄取和转换 Data & ETL
大数据系统的数据来源多种多样,主要包括以下几类:
事务数据库中存储的业务数据()业务应用系统(SAP ERP/)应用事件应用日志第三方系统开放API文件和对象存储
大数据系统的第一个重要子系统是摄取和转换数据源。传统的定义叫做ETL(,,Load)。现代数据系统逐渐从ETL转换到ELT,转换工作会交给后续的数据处理子系统。我们也可以称这部分为大数据管道。
是一个由开源社区创建的平台,用于以编程方式创作、调度和监控工作流。用户可以使用其预先构建或自定义的连接器来自动化和控制数据管道。支持以您喜欢的语言构建您自己的管道和连接器。连接器作为容器运行,开箱即可使用。用户可以使用其 UI 和 API 进行监控、调度和编排。由于使用单个开源存储库进行标准化和集成,这些连接器的质量更高。它呈指数级增长,并围绕它建立了一个充满活力的支持社区。然而,这项技术仍然是新的,还没有完全成熟。今年5月,它完成了2600万美元的A轮融资。
它是一种高性能的可观察性数据管道,允许组织控制其可观察性数据。收集、转换所有日志、指标和跟踪,并将它们路由到您需要的任何地方。
Rust 开发的数据管道速度快且内存高效。它旨在处理最苛刻的环境。端到端旨在成为从 A 到 B 获取数据所需的唯一工具,部署为守护进程、边车或服务。支持日志、指标和事件网站开发,可以轻松收集和处理所有可观察的数据。不支持任何存储、可编程转换(T),提供可编程运行时的所有功能。无限处理复杂用例。使用自主研发的数据管道定义和转换DSL,实现数据变形功能。
.io 背后的公司成立于 2016 年。这是一个与供应商无关的高性能可观察数据管道,允许客户在本地和云环境中收集、丰富和转换日志和其他可观察数据。它是在今年 2 月收购的。在收购之前,它已从投资者和其他投资者那里筹集了 580 万美元的风险投资基金。
是一个由社区创建的平台,用于以编程方式创作、调度和监控工作流。严格来说,它不是专业的ETL工具,它是一个更通用的工作流平台。但它可以用于大数据数据管道,提供定制的 ETL 功能。
使用将工作流创作为任务的有向无环图 (DAG)。调度程序在遵循指定的依赖项的同时在一组工作人员上执行您的任务。丰富的命令行实用程序可以轻松地在 DAG 上执行复杂的操作。丰富的用户界面使生产中运行的管道可视化、监控进度和在需要时解决问题变得容易。当工作流被定义为代码(作为代码)时,它们变得更加可维护、可版本化、可测试和协作。
数据仓库OLAP
在计算机领域,数据仓库是用于报告和数据分析的系统,被认为是商业智能的核心组件。数据仓库是来自一个或多个不同来源的集成数据的中央存储库。数据仓库将当前数据和历史数据存储在一起,用于为整个企业的员工创建分析报告。存储在仓库中的数据是从操作系统上传的。
它是一个开源分析数据库,专为高维高基数数据的亚秒级 OLAP 查询而设计。它是由一家广告分析公司创建的,已被许多公司使用,包括、、、、易趣、和。它结合了 OLAP 数据库、时间序列数据库和搜索系统的思想,创建了一个适用于广泛用例的统一系统。最初于2012年获得GPL许可,成为腾云网络,2015年变更为2许可,2018年作为孵化项目加入
俄罗斯搜索巨头开发的面向列的关系型数据库是近两年OLAP领域最火爆的,2016年开源,典型用户包括字节跳动、新浪、腾讯等知名公司。
它是一个基于 MPP 架构的分布式(关系型 OLAP)分析引擎。每个节点都有相同的职责,负责部分数据处理(不共享任何内容)。是一个真正的柱状数据库管理系统(DBMS)。在,数据总是存储在列中,包括向量执行的过程(向量或列块)。只要有可能,操作都是基于向量而不是单个值来调度的。它开发了矢量化执行引擎,利用日志合并树、稀疏索引和CPU功能(如SIMD单指令多数据)充分发挥硬件优势,可以实现高效计算。因此,当面对大量数据的计算方案时,通常可以达到CPU性能的极限。
它是一个分布式大数据分析引擎,提供SQL接口和多维分析(OLAP),可以堆栈使用。它最初由易趣中国研发中心开发。它于 2014 年开源并为此做出了贡献。具有亚秒级查询功能和超高并发查询功能。由美团、滴滴、携程、壳牌、腾讯等多家大厂商制造。商业。商业采用。
是基于(多维OLAP)技术的。核心技术是OLAP Cube;与传统技术不同,它运行在强大且可扩展的平台上,可以支持大量数据(TB 到 PB)。将预先计算(或执行)的多维立方体导入低延迟分布式数据库,实现亚秒级查询响应。最近4开始用+代替,进一步简化架构。由于离线任务(多维数据集构建)期间已经完成了大量的聚合计算,因此在执行SQL查询时不需要访问原始数据,而是直接使用索引将聚合结果组合起来,重新进行计算。性能高于原始数据。一百甚至数千次;由于CPU使用率低,可以支持更高的并发,
数据湖
数据湖是指以自然格式存储数据的系统,例如大型二进制对象或文件。它通常以统一的方式存储所有企业数据,包括源系统中的原始副本和转换后的数据,例如用于报告、可视化、数据分析和机器学习的数据。数据湖可以包括关系数据库的结构化数据、半结构化数据、非结构化数据和二进制数据。
Lake 是一个开源的存储层,可以为数据湖带来可靠性。Data Lake 是一个集中式存储库,可以存储任何大小的数据。通常,这些数据将采用原始格式。捕获数据时未定义数据或架构的结构。这意味着无需精心设计或了解未来可能需要回答的问题,即可存储所有数据。数据湖存在的问题之一是缺乏可靠性,数据湖中可能存在不良数据。Lake是Data Lake之上的存储层。Lake 会查看来自 Data Lake 的数据,并确保数据符合指定的架构。这样,进入Lake的数据才会正确可靠。Lake 可以处理批处理数据和流数据。与Data相比,性能也可以优化。
Hudi是一个快速迭代的数据湖存储系统,可以帮助企业构建和管理PB级数据湖。Hudi 通过引入诸如增量查询之类的原语,将流式处理功能引入到批处理中。这些特性使统一服务层能够提供更快、更新鲜的数据。Hudi 表可以存储在兼容的分布式文件系统或云对象存储中,并且与 Hive 和. Hudi 开创了一种新模型(数据组织形式),将文件写入一个更受管理的存储层,该存储层可以与主流查询引擎互操作,并具有项目演化的一些有趣方面。经验。
Hudi等数据湖相当于现有OLTP和OLAP技术之间的桥梁。它们可以将数据存储在OLTP现有的数据结构中,支持CRUD,并提供与现有OLAP框架(如Hive)的集成,实现OLAP分析Kudu,需要单独部署集群。Hudi不需要它。可以使用HDFS等现有的大数据集群进行数据文件存储,再使用Hive进行数据分析,相对更适合资源受限的环境。
它是一种用于跟踪超大规模表的新格式。专为对象存储(如S3). 开发开源,2018年11月16日进入孵化器。为公司数据)仓库基础。功能与Lake或Hudi类似,但各有优缺点。
目标包括:
成为静态数据交换的开放规范,保持清晰的格式规范,支持多语言,支持跨项目需求等。提高可扩展性和可靠性。它可以在节点或集群上运行。所有修改都是原子的、序列化的和隔离的。原生支持云对象存储,支持多并发写入修复持续可用性问题,如模型进化、分区隐藏、支持时间旅行、回滚等机器学习和运维ML&
开源的机器学习和深度学习工具有很多,其中常用的算法工具有、、、、ONNX、-、等,这些工具都非常成熟。随着/的兴起,我们更加关注一些解决大规模机器学习运维功能的平台化开源工具。
当前机器学习面临的挑战:
总和是解决这些问题的答案。
,顾名思义就是+,是一个开源平台,开发出来支持自己的部署。当然,它也支持其他基于它的机器学习引擎。与其他产品相比,因为它建立在强大的基础上,所以未来和生态系统更有前景。
它是一个用于管理端到端机器学习生命周期的开源平台。它分为四个部分:跟踪、项目、模型和模型注册。您可以单独使用这些组件中的每一个 — 例如,您可能希望以模型格式导出模型而无需跟踪或项目 — 但它们也可以很好地协同工作。
核心理念是对工作流施加尽可能少的限制:它旨在与任何机器学习库一起使用开源php erp管理系统,习惯上确定有关代码的大部分内容,并且可以将其集成到现有代码库中中间变化最小。同时,它旨在采用以其格式编写的任何代码库,并使其可被多个数据科学家复制和重用。
是华为开源的、端侧云全场景按需AI计算框架,为全场景提供统一的API,为全场景AI的模型开发、模型运营、模型部署提供端到端的能力.
即席查询(Ad hoc)
它是一个适用于大数据的分布式SQL查询引擎,使SQL能够访问任何数据源。您可以使用具有水平扩展的查询处理来查询非常大的数据集。它用于对大小从 GB 到 PB 的各种数据源运行交互式分析查询。它是专门为交互式分析而设计和编写的,在扩展到这样一个组织的规模的同时,可以达到商业数据仓库的速度。虽然它理解并能有效地执行 SQL,但它不是一个数据库,因为它不包含自己的数据存储系统。它并不意味着是一个通用的关系数据库。它不是为处理 OLTP 场景而设计的。
SQL 查询可以在不同的数据源上执行。它是一个用于大数据集的低延迟分布式查询引擎,包括结构化和半结构化数据/嵌套。受谷歌启发,设计规模为数千个节点,可与BI或分析环境交互。与此类似,SQL 查询可以在不同的数据源上执行。它是一个用于大数据集的低延迟分布式查询引擎,包括结构化和半结构化数据/嵌套。受谷歌启发,设计规模为数千个节点,可与BI或分析环境交互。在大型数据集上,它还可以用于简短的交互式临时查询。可用于嵌套查询,如 JSON 格式、格式和动态执行查询。不需要集中的元数据仓库。
“”的核心服务是“”,她负责接受来自客户端的请求,处理请求,并将结果返回给客户端。服务可以在集群上安装和运行。当在集群中的每个数据节点上运行时,它可以最大限度地执行查询,而无需网络或在节点之间移动数据。用于维护集群的健康。虽然它工作在集群环境中,但它不依赖,可以运行在任何分布式集群环境中。唯一的前提是需要。
它是一个开源的集群计算框架,最初由加州大学伯克利分校开发。相比之下,中间数据会在工作完成后存储在磁盘中,采用内存中的算法技术,可以在数据写入硬盘之前在内存中进行分析和计算。它是一个大家都非常熟悉的计算引擎,这里就不再赘述了。值得注意的是,企业软件公司是由原作者创建的。该公司还创建了 Lake,这是一个流行的开源项目,涵盖数据工程、数据科学和机器学习。2021年2月1日,宣布完成10亿美元G轮融资。
实时流媒体分析
它是一个框架和分布式处理引擎,用于对无边界和有边界的数据流进行有状态计算。它可以在所有常见的集群环境中运行,并且可以以内存速度和任何规模执行计算。擅长处理无界和有界数据集,精确的时间控制和状态性使()能够运行任何处理无界流的应用程序。有界流由一些专门为固定大小的数据集设计的算法和数据结构在内部进行处理,从而产生出色的性能。
是一个用于在其上构建流处理应用程序的数据库。它是分布式的、可扩展的、可靠的和实时的。通过熟悉的轻量级 SQL 语法,将实时流处理的强大功能与关系数据库的平易近人的感觉相结合。
是一个流处理库,它的思想是从移植来的。
这背后的公司正在使用它来构建每天处理数十亿个事件的高性能分布式系统和实时数据管道。
提供流处理和事件处理,类似///等工具。
提供的算力比较简单,适用于比较轻量、简单的流式计算场景。
数据可视化和商业智能数据和BI
数据展示和数据可视化是所有数据用户都喜欢使用的功能,也是传统BI的标准配置。在这一领域的是腾云网络。
它是一个开源的 BI 和数据可视化工具箱。快速、轻量、直观,并提供多种选项,所有技能的用户都可以轻松浏览和可视化他们的数据,从简单的线图到高度详细的地理空间图。
目前已在多家公司大规模运营。例如,它运行在内部生产环境中,每天为超过 600 个活跃用户提供服务,每天查看超过 100,000 个图表。
旨在使任何人,无论技术水平如何,都能使用数据的力量。SQL 用户可以使用它来探索、查询、可视化和共享来自任何数据源的数据。他们的工作反过来使组织中的任何人都可以使用数据。每天,全球数以千计的组织中的数百万用户使用它来获得洞察力并做出数据驱动的决策。
其背后的公司成立于2015年,2020年将被所有公司收购。
2014年成立于美国硅谷,其产品理念是一种简单、开源的方式,公司中的每个人都可以提出问题,从数据中学习。
支持中文,支持三种不同方式解决查询问题。
支持常见的可视化类型。
以可视化的方式支持自定义查询,避免编写SQL。当然,它也支持SQL编辑。
大数据搜索
是一个基于开源的搜索服务。它基于 Web 界面提供具有分布式多用户功能的全文搜索引擎。它是用 Java 开发的,并根据许可条款作为开源发布。它是一个流行的企业搜索引擎。专为在云计算中使用而设计,可实现实时搜索,稳定可靠,速度快seo优化,安装使用方便。
ELK 是 ELK 的缩写,分别提供搜索、数据访问和可视化功能,形成应用栈。
ELK 基本上可以说是开源搜索的事实标准。有非常强大的社区支持。
.ai 是用于对大型数据集进行低延迟计算的引擎。它存储和索引数据,以便在服务期间可以查询、选择和处理数据。您可以使用托管应用程序组件来自定义和扩展功能。
支持以下功能
它是一个开源的向量数据库,支持对TB级向量的增删改操作和近实时查询。具有高度灵活、稳定可靠、查询速度快等特点。它集成了广泛使用的矢量索引库,并提供了一套简单直观的API,让您可以针对不同的场景选择不同的索引类型。此外,可以过滤标量数据,进一步提高召回率,增强搜索的灵活性。
图数据库
关系数据库具有分类帐式结构。可以通过大多数人都熟悉的SQL查询。每个条目由表中的一行组成。表通过外键约束相关联,外键约束是将信息从一个表连接到另一个表(例如主键)的方式。在查询关系型数据库时,通常会涉及到慢速的多级连接。
对于图形(尤其是散点图),将元素视为节点或点。线图的元素类似地由顶点表示。每个节点都有键值对和标签。节点通过关系或边连接。关系具有类型和方向,并且可以具有属性。图数据库仅由点和线组成。当意义在于数据之间的关系时,这种类型的数据库更简单,功能更强大。关系数据库可以轻松处理直接关系,但在关系数据库中间接关系更难处理。
它是最古老的图形数据库。成立于2007年,被评为全球第一的图数据库。它是开源的,支持多种编程语言,包括:.Net,,,,,,,,,,,,, Java,, Perl, PHP, Ruby, and。服务器操作系统是OS X,并且。
它是一个开源的分布式图数据库,擅长处理千亿顶点和万亿边的超大数据集。提供高吞吐量、低延迟的读写能力,内置ACL机制和用户认证,为用户提供安全的数据库访问方式。
作为高性能、高可靠的图数据库,提供线性扩展能力,支持快照实现数据恢复。在查询语言方面,开发团队完全自主研发了查询语言-nGQL。
它是一个分布式的、事务支持的、使用构造构建的快速图数据库。目标是提供 的生产级规模和吞吐量,以及足够低的延迟,以提供超过数 TB 结构化数据的实时用户查询。组件支持的查询语法、响应 JSON 和协议缓冲区超过 GRPC 和 HTTP。
数据质量和元数据
企业内部运行的数据库可能有很多种,可以分为大数据平台、sql数据库、数据库、图数据库等,从具体的数据库类型来看,可能是等等,不管什么类型的数据库,都是一个目的,就是存储数据,对于如何管理数据,每个数据库都有一个方法,举个例子
那么,描述数据的信息就是元数据。元数据数据库管理有什么用?我们平时的开发中可能很少考虑这个问题。元数据管理对于保证数据库的质量非常重要。通过元数据管理
每个业务系统都可以定义自己的表和视图,数据来自哪里开源php erp管理系统,流向哪里,数据之间是否存在相关性,是否与其他系统的数据存在重复字段和矛盾字段。这些都是元数据管理要解决的问题。
它是托管在其保护伞下的元数据管理和治理产品。提供API和一系列插件,方便导入数据库元数据信息进行分析。它还提供了一个 Web 界面来管理元数据。通过这种方式,企业可以为数据库元数据建立资产目录,对这些资产进行分类和管理,为数据分析和数据治理提供高质量的元数据信息。
面对海量且不断增加的数据对象种类,必须考虑数据管理的实际情况。元数据和数据治理已经成为企业级数据湖的重要组成部分。为了寻求数据治理的开源解决方案,公司于2015年联合其他厂商和用户发起了数据治理倡议,包括数据分类、集中策略引擎、数据血缘关系、安全和生命周期管理。该项目是这一举措的结果,社区合作伙伴继续为该项目提供新的功能和特性。该项目用于管理共享元数据、数据分类、审计、安全和数据保护。它为数据访问控制策略而努力和集成。
CKAN 是一个开源的数据管理系统。它是用于制作开放数据网站的工具。它可以帮助管理和发布数据集合。它被收集大量数据的国家和地区、研究机构和其他组织使用。
数据发布后,用户可以使用其分面搜索功能浏览和查找自己需要的数据,并使用地图、图表和表格进行预览。
加拿大使用 CKAN 来管理数据。作为用户,说实话,我觉得他的系统真的不好用。
.io 是一个数据发现和元数据引擎,用于提高数据分析师、数据科学家和工程师在与数据交互时的工作效率。今天,它通过索引数据资源(表、仪表板、流等)和支持基于使用模式的页面排名样式搜索(例如,高查询表比低查询表更早显示)来实现这一点。将其视为搜索数据。该项目以挪威探险家罗尔德·阿蒙森 ( ) 的名字命名,他是第一个发现南极洲的人。