你的数据仓库还在为企业业务拖后腿吗?
内置安全管控和数据治理模块:开放的数据永远不会以牺牲安全为代价,因此敏感数据的安全至关重要。 Cloudera是唯一一个通过PCI安全认证的Hadoop平台,内置安全管控和数据治理模块。无论用户采取何种方式访问数据,只要利用Cloudera安全技术对用户预设置权限,或者对数据预设置监管策略,您都可以继续数据探索之旅,而不用担心数据泄密或越权访问。 采用开源技术,可在任何环境中移植:无论是本地部署,云端还是混合部署都完全适用,避免了技术锁定的问题。 如何面向大数据技术进行数据仓库转型? Cloudera大数据平台为企业用户提供了强大的技术保障: 首先,在数据加工方面,Hive具有大规模的数据处理能力以及用户熟悉的SQL支持能力。 Hive-on-Spark利用Apache Spark的内存处理引擎,可以带来更快的处理速度。Impala作为支持高并发性查询的类MPP引擎,支持SQL开发人员和分析人员提交交互式查询。开发人员也可以使用Hue作为开箱即用的SQL编辑器,为BI终端用户提供更好的自助式服务。终端用户也可以选择通过第三方BI工具和平台进行集成,通过Impala查询接口以实现不间断的分析。Kudu也建议与Impala配合在一起使用,这种新型存储引擎通过流式计算或不断更新的数据处理实现自助式BI和探索性分析,获得近乎实时的洞察力,从而更好地推动业务决策。 其次,在数据安全方面,Cloudera将多层次的安全策略构建到平台核心,企业可以充分利用Hadoop的灵活性和可访问性,而不会对其数据安全造成风险。大量的并发用户使用不同的工具访问大规模的用户数据,往往意味着安全梦魇,特别是处于高度监管或者包含敏感信息的数据。对于用户本身,Apache Sentry允许安全管理员根据用户的角色轻松设置权限,访问权限会自动保留在整个平台上。对于数据本身,Cloudera提供企业级加密和密钥管理功能,借助底层芯片优化技术,Cloudera Navigator Encrypt可让您加密所有的数据,包括元数据、日志等,而不会影响上层分析的性能。Navigator Key Trustee确保您的加密密钥更加安全而独立。 再次,在数据治理方面,只有Cloudera能在整个Hadoop平台上提供全面的治理,包括支持集中审计,字段级血缘分析和数据生命周期管理。数据治理不仅对安全合规至关重要,而且在用户行为验证和置信方面也发挥着关键作用。一方面,企业的安全团队可以全面了解谁在访问数据以及他们正在访问哪些数据;另一方面,数据管理员可以自动管理从数据导入到数据清理的整个流程;并且,业务用户也能更好地了解数据,探索数据之间的关系,并验证最终的分析结果。 最后,在负载管理方面,借助Cloudera Manager的资源池工具,管理员可以确保每个部门都拥有满足其SLA所需的适当资源,并实现最佳性能。借助Workload XM,管理员可以根据用户需求和当前使用状态轻松监控和调节资源,诊断和排查有问题的查询。与Cloudera Director一起配合使用,资源管理甚至可以扩展到云端部署环境,并能够根据用户需求进行弹性扩展。 现代数仓环境 现有数据仓库的优化可分为四个步骤
Hadoop性能优化工具 针对Hadoop性能优化的问题,Cloudera提供专为现代数据仓库设计的智能的工作负载管理云服务——Cloudera Workload XM。与传统的性能管理工具不同,Workload XM提供引导式自助服务性能分析,以便在整个生命周期内对工作负载提供可见性和有效控制。Cloudera Workload XM可以在不升级或安装任何软件的情况下工作,这意味着用户可以跳过软件安装部署的步骤立即使用。 徐峰在此举了一个实例: 某个用户想利用WXM诊断当前数据仓库的性能瓶颈。首先,用户通过Cloudera Manager收集大数据平台的日志诊断包,然后单击“开始上传”,WXM页面显示针对该诊断包的后台分析大约需要30分钟。 待后台分析结束后,该用户登录WXM仪表盘,从首页上查看到(8月13日 - 9月1日),总共有676043个查询,失败查询占比为4.9%。仪表盘还会显示其他信息:
该用户比较关心跑得非常慢的查询。他单击“持续时间> 5s的查询分布图”,得到以下摘要信息:
该用户发现大多数慢查询都是元数据查询,因此他增加元数据标识过滤,同时调整时间范围,以便在每小时窗口中查看详细的查询信息。由于元数据查询基本上是管理员提交的,因此再将管理员用户添加到过滤器中。 通过以上操作,该用户最终得出结论:大多数慢查询并非业务查询,而是收集增量统计信息的查询。 某城商行大数据应用案例 (编辑:淮安站长网) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |