在当今数据驱动的时代,构建一个快速、安全和高可靠的实时数据仓库对于企业来说至关重要。Apache Doris作为一个强大的开源数据仓库解决方案,提供了实现这一目标的理想选择。通过利用Doris的强大功能和特性,可以构建一个高度可扩展且具备优异性能的实时数据仓库,以满足数据处理和分析的需求。本文介绍如何基于Doris打造这样一个数据仓库,以实现数据驱动。
成都创新互联公司专业为企业提供宜春网站建设、宜春做网站、宜春网站设计、宜春网站制作等企业网站建设、网页设计与制作、宜春企业网站模板建站服务,10多年宜春做网站经验,不只是建网站,更提供有价值的思路和整体网络服务。
Apache Doris使用三种数据模型来组织数据,这些模型之间的主要区别在于是否以及如何聚合数据。
金融用户在不同的数据仓库层中采用不同的数据模型:
分区和桶化的思想是将数据“切割”成较小的部分,以增加数据处理速度。关键是设置适当数量的数据分区和桶。根据使用情况,根据每个表自定义桶化字段和桶的数量。例如,经常需要从零售商扁平表查询不同零售商的维度数据,因此可以将零售商ID列指定为桶化字段,并列出各种数据大小的推荐桶数量。
图片
在采用Apache Doris时,需要将所有分支机构的本地数据迁移到Doris中,但会发现分支机构使用了不同的数据库,并且具有非常不同的数据文件格式,所以迁移可能会很混乱。
图片
幸运的是,Apache Doris支持丰富的数据集成方法,既支持实时数据流式处理,又支持离线数据导入。
为了确保业务连续性和数据准确性,可用以下摄取全量数据和增量数据的方法:
ALTER TABLE t1 REPLACE WITH TABLE t2
语句原子替换常规表为临时表。这种方法可以避免对前面的查询产生影响。alter table ${DB_NAME}.${TBL_NAME} drop partition IF EXISTS p${P_DOWN_DATE};
ALTER TABLE ${DB_NAME}.${TBL_NAME} ADD PARTITION IF NOT EXISTS p${P_DOWN_DATE} VALUES[('${P_DOWN_DATE}'), ('${P_UP_DATE}'));
LOAD LABEL ${TBL_NAME}_${load_timestamp} ...
已经将部分离线数据处理工作迁移到Apache Doris,并把执行速度提高了5倍。
图片
多租户资源隔离
这是必需的,因为经常会发生多个团队或业务系统请求同一数据的情况。这些任务可能导致资源抢占,从而降低性能和系统的稳定性。
这里把分析工作负载分为四类,并为每个类别设置了资源限制。特别是拥有四种不同类型的Doris账户,并为每种类型的账户设置了CPU和内存资源的限制。
图片
通过这种方式,当一个租户需要过多的资源时,它只会影响自己的效率,而不会影响其他租户。
为了满足母子公司层级的数据安全性,这里为子公司设置隔离的资源组。每个子公司的数据存储在其自己的资源组中,并具有三个副本,而母公司的数据则存储在四个副本中:三个在母公司资源组中,另一个在子公司资源组中。因此,当子公司的员工请求母公司的数据时,查询只会在子公司资源组中执行。具体而言,采取以下步骤:
图片
基于资源标签的隔离方案确保了物理级别的隔离,但作为Apache Doris开发人员,希望进一步优化资源利用率并追求更细粒度的资源隔离。为此,在Apache Doris 2.0中推出了工作负载组功能。
工作负载组机制将查询与工作负载组相关联,限制了查询可以使用的后端节点的CPU和内存资源的共享。当集群资源短缺时,最大的查询将停止执行。相反,当集群资源充足且工作负载组需要的资源超过限制时,它将按比例分配空闲资源。
出于规章制度和合规性原因,有的提供商实施严格的权限控制,以确保每个人只能访问他们应该访问的内容。参考做法如下:
图片
分享题目:基于Doris,打造快速、安全、高可靠的实时数据仓库
标题网址:http://www.gawzjz.com/qtweb/news47/204847.html
网站建设、网络推广公司-创新互联,是专注品牌与效果的网站制作,网络营销seo公司;服务项目有等
声明:本网站发布的内容(图片、视频和文字)以用户投稿、用户转载内容为主,如果涉及侵权请尽快告知,我们将会在第一时间删除。文章观点不代表本网站立场,如需处理请联系客服。电话:028-86922220;邮箱:631063699@qq.com。内容未经允许不得转载,或转载时需注明来源: 创新互联