你的数据仓库还在为企业业务拖后腿吗?
该城商行通过采用Hive,Impala,Spark,HBase等各类技术来处理不同类型的数据,满足了批量、实时交互以及流式数据多种不同的数据计算需要,同时借助Sentry实现了多部门访问的数据安全控制。因为Hadoop平台能存储更多的数据,而且Impala查询性能提升明显,该城商行正在基于这些大量的历史数据挖掘新的价值,如客户画像,精准营销,风险管控等。 据了解,目前该城商行已经将大部分的Teradata数据仓库应用迁移到Cloudera大数据平台,包括CRM、监管报送、自助化分析、取数以及风险合规相关应用。同时,也基于大数据平台新建了一些应用,例如:实时营销和欺诈监控、在线明细查询等等。 数仓迁移过程中的问题及解决方案 在数仓迁移过程中,该城商行也遇到了一些技术上的挑战,通过攻关研发,并结合之前的数仓开发实践,逐渐摸索出了相应的解决方案: 1、SQL引擎问题:解决了Teradata SQL迁移的三大问题,使其满足数据仓库应用开发的基础要求:
2、数据模型改造:传统数仓的数据模型存在以下问题:
新模型改造方法:
3、数据质量管理:通过建设数据质量检测平台来加强大数据平台上的数据仓库日常数据质量管理的工作。该平台结合行内数据标准定义,支持技术和业务规则批量配置。目前已经配置了1000+检查规则,为大数据平台之上的数据仓库数据质量问题提供了快速定位和流程化解决方案。 Cloudera助力企业进行传统数仓转型 最后,徐峰补充道,Cloudera能够通过以下三个方面助力企业进行数据仓库转型: 一是企业版增强功能。Cloudera推出了针对企业应用进行优化并包含相应工具和售后服务的数据仓库软件版本。相较于免费版本,企业用户可以获得源码级的技术支持服务,保障系统持续稳定运行;申请主动扫描集群服务,提前发现潜在的风险和问题;使用包含增强功能的管理和维护工具集,简化系统运维和数据治理。 二是大数据咨询和专业服务。Cloudera拥有一支极富Hadoop实践经验的资深专家团队,该团队专门为数据仓库项目提供最佳的现场服务,包括:提供解决方案架构、应用实现、产品使用、系统优化方面的咨询服务,提供集群定期健康检查、集群故障时的紧急救援服务,以及基于客户需求进行定制化开发工作等等。 三是人才培训。Cloudera大学是世界领先的培训和认证的机构,提供业界最广泛的Apache Hadoop培训和认证。除了面向管理员、程序员、数据分析师和数据科学家不同角色的商业性培训之外,还有公益性、学术性的培训和交流。Cloudera也与清华大学达成了战略合作,该项目旨在通过提供Hadoop平台上的课程、软件及技术培训来培养更多的专业人才。 结语 传统数据仓库很难适应新时代的发展需求,面向云和大数据进行数据仓库转型已迫在眉睫,吸取前人经验,对现有数仓进行优化,从而面向大数据技术进行平稳的数仓转型,是企业的最佳实践路径。显然,Cloudera在长期的技术和客户服务过程中总结出了一条切实可行的实践之道,并且在数据仓库产品、咨询、服务、工具和人才培养等方面已经得到了经久的打磨和锻炼,想要进行数仓升级来满足全新业务需求的企业,不妨一试。 附:嘉宾简介 徐峰,现任Cloudera售前技术经理,资深解决方案顾问,主要负责金融行业Hadoop项目的整体架构设计实施,以及关键技术的研究工作。在此之前徐峰曾供职于Teradata专业服务部门,拥有14年数据仓库项目实施经验,长期从事数据存储、处理、分析等相关工作,曾作为首席架构师参与过多个大型数据仓库项目的架构设计和项目规划工作,包括浦发银行数据仓库项目、兴业银行数据仓库项目、上海农商银行数据仓库项目、交通银行数据仓库数据、东方航空数据仓库项目等等。 【51CTO原创稿件,合作站点转载请注明原文作者和出处为51CTO.com】 【责任编辑:查士加 TEL:(010)68476606】点赞 0 (编辑:淮安站长网) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |