
会员
Hadoop构建数据仓库实践
更新时间:2020-11-28 16:12:16 最新章节:作者简介
书籍简介
本书讲述在流行的大数据分布式存储和计算平台Hadoop上设计实现数据仓库,将传统数据仓库建模与SQL开发的简单性与大数据技术相结合,快速、高效地建立可扩展的数据仓库及其应用系统。本书内容包括数据仓库、Hadoop及其生态圈的相关概念,使用Sqoop从关系数据库全量或增量抽取数据,使用HIVE进行数据转换和装载处理,使用Oozie调度作业周期性执行,使用Impala进行快速联机数据分析,使用Hue将数据可视化,以及数据仓库中的渐变维(SCD)、代理键、角色扮演维度、层次维度、退化维度、无事实的事实表、迟到的事实、累积的度量等常见问题在Hadoop上的处理等。本书适合数据库管理员、大数据技术人员、Hadoop技术人员、数据仓库技术人员,也适合高等院校和培训机构相关专业的师生教学参考。
品牌:清华大学
上架时间:2017-07-01 00:00:00
出版社:清华大学出版社
本书数字版权由清华大学提供,并由其授权上海阅文信息技术有限公司制作发行
最新章节
王雪迎
同类热门书
最新上架
- 会员MySQL数据库是目前全球流行的数据库之一。《MySQL8.0从入门到实战》从入门到实战,系统全面、由浅入深地介绍MySQL数据库应用的各个方面。全书分为8个部分,共18章。第1部分(第1~3章)介绍MySQL的基础知识,包括初识MySQL、数据库设计和数据类型;第2部分(第4~6章)介绍MySQL的基本操作,包括SQL基础操作、MySQL连接查询和数据复制、MySQL基础函数;第3部分(第7、8计算机9.7万字
- 会员《数据分析师手记:数据分析72个核心问题精解》从底层认知、思维方法、工具技术、项目落地及展望出发,使用问答的形式对数据分析中的72个核心知识点进行讲解,构建了数据分析的知识框架,带领读者认识数据分析背后的奥妙。读者可以用本书作为学习地图,针对具体的方法、技术进行延伸学习。计算机16.8万字
- 会员本书共3篇:第1篇主要介绍分布式数据库基础理论,包括经典的CAP理论、一致性算法相关的理论、并发控制相关的理论等;第2篇具体介绍Greenplum数据库,从分布式事务、分布式计算和分布式存储3个方面,深入代码层级,讲述分布式理论在工业上的实现;第3篇是总结和展望,介绍云原生数据库和新技术带给Greenplum和数据库管理系统的机遇和挑战。本书打破以理论介绍和架构介绍为主的思路,深入分析工业化的实现计算机7.1万字
- 会员本书是《数据库原理——GaussDB技术及应用》一书配套的辅助教材。全书共分3部分:第一部分为实验指导,共有13个综合实验,每一个实验都是根据教学目标而设计,详细讲述了每一个实验的实验目的、实验任务及实验步骤,从而培养学生掌握关系数据库管理软件技术与应用的技能;第二部分为习题集,是根据主教材各章节内容编写的习题及习题答案,内容广泛,有填空、选择、简答、设计及实验题等多种形式,利求通过对这些习题的训计算机6.9万字
- 会员数据科学的关键技术包括数据存储计算、数据治理、结构化数据分析、语音分析、视觉分析、文本分析和知识图谱等方面。本书的重点是详细介绍文本分析和知识图谱方面的技术。文本分析技术主要包括文本预训练模型、多语种文本分析、文本情感分析、文本机器翻译、文本智能纠错、NL2SQL问答以及ChatGPT大语言模型等。知识图谱技术主要包括知识图谱构建和知识图谱问答等。本书将理论介绍和实践相结合,详细阐述各个技术主题的计算机21.6万字
- 会员本书以案例的形式,介绍从思维模型分析到场景实践的数据分析方法。全书围绕“数据分析”与“运营增长”两大关键要素,在系统介绍数据分析思维、数据分析方法、数据采集技能、数据清洗技能等基础知识的同时,以问题为导向,解读运营与增长的关键性业务内容,在获客、激活、留存、变现、自传播循环等各个核心运营环节展开数据分析实战。本书提供案例相关数据集与源码包,适合数据分析、产品运营、市场营销等行业有数据分析具体业务需计算机12万字
- 会员《SQLServer从入门到精通(第5版)》从初学者角度出发,通过通俗易懂的语言、丰富多彩的实例,详细介绍了SQLServer开发所必需的各方面技术。全书分为4篇共19章,内容包括数据库基础、SQLServer数据库环境搭建、创建与管理数据库、操作数据表、SQL基础、SQL函数的使用、SQL数据查询基础、SQL数据高级查询、视图的使用、存储过程、触发器、游标的使用、索引与数据完整性、SQL中计算机14.1万字
同类书籍最近更新
- 会员本书是主教材《Access2010数据库程序设计》(邵敏敏、董保莲、张楠主编,中国铁道出版社出版)的配套实验教材。本书内容包含课程实验指导与全国计算机等级考试指导两部分。课程实验指导主要内容是与主教材同步的实验以及全国计算机等级考试真题练习与解析,全国计算机等级考试指导主要包括全国计算机等级二级(Access数据库程序设计)考试介绍以及模拟试题与解析。本书内容丰富,覆盖面广,有利于学生巩固所学的知数据库8.4万字
- 会员本书是国家级精品课程《计算机基础(文科)》的配套教材和西北大学211建设成果,据最新计算机等级考试的规范《二级Access数据库程序设计考试大纲》进行编写,书中涉及的内容覆盖了大纲的所有知识点。内容由数据库基础和基于Access应用两大部分组成,通过引例,循序渐进地介绍了数据库的设计、建立与使用方法,能够让读者在很短的时间内掌握Access数据库程序设计。本书配备完整的教学资源,包括:课程网站,实数据库16.2万字
- 会员全书共5章,包含33个应用案例。第1~3章属于计算机基础知识应用篇,介绍了Windows、Word、Excel软件的使用方法。第4章属于大数据技术应用篇,介绍了WebScraper、Access、MySQL以及MongoDB软件的使用方法。第5章为计算思维与程序设计应用篇,介绍了算法流程图绘制方法、程序设计、运行与调试等应用技巧。本书中案例由浅入深,操作步骤详尽,语言通俗易懂。数据库12.7万字
- 会员在大数据时代,R以其强大的数据分析挖掘、可视化绘图等功能,越来越受到社会各个领域的青睐。现在,R的计算引擎、性能、程序包都得到了提升,其中R与大数据分析平台Hadoop的结合,实现了R对大数据的分析式处理分析。这些不仅大大扩展了R的应用,也扩大了R在各行业的需求。为了更好地适应新形势,掌握大数据分析处理的相关知识是很有必要的。本书从理论基础、方法、实证三方面详细地阐释了R和RHadoop的相关理论数据库6.6万字
- 会员云原生之路,漫漫而修远,因为云在发展,应用也在发展。如何让应用充分利用云的特性焕发全新面貌,这是每个云原生应用架构领域的人应该思考的问题。本书分为两篇,从技术演进讲起,让读者充分了解系统资源、应用架构和软件工程的发展历程,从而拥有技术角度的全局视野;然后介绍云原生应用的最佳实践,手把手教你设计一个云原生应用。本书适合云原生应用开发人员、架构师、云计算从业者阅读,部分章节对产品团队、运维人员亦有一定数据库23.7万字
- 会员Thisbookisdesignedforbusinessanalysts,BIanalysts,datascientists,orjuniorleveldataanalystswhoarereadytomoveonfromaconceptualunderstandingofadvancedanalyticsandbecomeanex数据库14.9万字