从超大规模的事件流中发现模式可能很困难,但是学习如何发现这些模式却不见得很难。这本实战指南告诉我们如何利用apache hadoop,使用简单、有趣、精致的工具,解决大规模数据处理中的模式发现以及很多其他问题。通过处理真实数据、解决现实问题,你将对大数据有一个实用的、可操作的认识。本书非常适合hadoop新手,也很适合那些想要提升技能的有经验的实践家。其中,*部分解释了hadoop和mapreduce的工作原理,第二部分讲述了很多数据处理用到的分析模式。通过一些练习,你还将学会如何使用apache pig进行数据处理。■ 学习使用hadoop的必要原理,包括数据和计算在集群中的移动行为■ 深入理解mapreduce机制,用python创建你的*个mapreduce作业■ 理解如何以pig脚本的形式运行mapreduce作业链■ 全书使用真实数据集,即棒球统计数据集■ 提供分析模式的示例,并学习何时何地使用这些分析模式
本书以实用的、可操作的视角解释了大数据——采用黑猩猩和大象的隐喻,基于棒球统计数据集,使用apache hadoop和pig等工具展示了如何处理大规模数据。此外,通过处理真实数据、解决现实问题,作者还以实例的形式总结了一些实践分析模式,为有创造力的分析人员提供了*强大、*有价值的方法。本书特别适合那些需要大数据工具箱来解决实际问题的人们。
Philip Kromer是云大数据平台领先者Infochimps的创始人和CTO,以及Vigilante的联合创始人。他的其中一个项目WuKong,是Hadoop Ruby流处理最常使用的框架之一。__eol__Russell Jurney是全球经济市场地图创业公司Relato的创始人和CEO。他曾任LinkedIn产品分析数据科学家,还是一个Hadoop传道士。唐李洋,女,博士,中国电子科技集团公司第三十八研究所,工程师,目前从事公共安全等领域相关的大数据分析与数据挖掘工作。译有《高可用MySQL》(第1和第2版)、《R语言高性能编程》等书。
张量数据的特征提取与分类 本书特色 《张量数据的特征提取与分类》的主要研究内容是在模式识别应用领域中,提出新的基于张量数据的特征提取和分类算法,并且对这些张量型...
《Processing开发实战》内容简介:Processing简单易学的界面和编程风格,使很多机器人爱好者或电子制作爱好者,可以借助它完成机器
《云计算核心技术剖析》,本书首先介绍了云计算理论方面的知识,接着剖析了多个顶尖云计算产品(比如GoogleAppEngine和Salesforc
C++ Primer Plus-(第6版)-中文版 本书特色 一本经久不衰的c++畅销经典教程;**本支持c++11新标准的程序设计图书。它被誉为“开发人员学习...
《出版理论与实务研究(2022)》内容简介:《出版理论与实务研究2022》全书分为“出版工作”“选题策划”“书稿审读”“市场营销”
《华杉讲透《资治通鉴》10》内容简介:《资治通鉴》从战国写到五代十国,生动展现了16个朝代1362年历史中一个个活生生的人和故事,
Ifyoureawebsitedesigner,intranetmanagerorsomeonewithoutmuchInformationArchitectu...
《C#并发编程经典实例》内容简介:本书全面讲解C#并发编程技术,侧重于.NET平台上较新、较实用的方法。全书分为几大部分:首先介绍
《DebugHacks中文版—深入调试的技术和工具》是MiracleLinux的创始人吉冈弘隆和几位工程师们多年从事内核开发的经验积累。从调试
《基础会计(第二版)》内容简介:本教材结合会计从业资格考试要求,以会计基本理论、核算方法为依托,以会计实务核心技能为主线,
互联网的未来-光荣.毁灭与救赎的预言 目录 译者序引言**部分可繁殖网络的兴起和停滞**章盒子的战争第二章网络的战争第三章网络安全与自我繁殖的两难第二部分停滞之...
《小白学运营》是针对网络游戏行业,产品运营及数据分析工作的入门读物,主要为了帮助刚入行或有意从事游戏产品运营和数据分析的
《RubyProgramming:向Ruby之父学程序设计(第2版)》是为了让完全没有程序设计经验的读者也能灵活地使用Ruby,因此书中详细地说明了
《UML基础与Rose建模教程》全面,详细地介绍了UML的基础知识和RationalRose的使用方法,并通过4个综合性的案例,展示了使用UML和R
简介:国际信息学奥林匹克竞赛指导主题词:电子计算机(学科:竞赛学科:中学学科:教学参考资料)更多同类图书:文化、科学、教育、体育
《openGauss数据库核心技术》内容简介:本书系统论述了openGauss数据库理论、技术及应用。本书共11章,首先介绍数据库发展历史,包
中文版Dreamweaver网页设计 本书特色 《中文版Dreamweaver网页设计》为"新手视听轻松学"系列丛书之一,针对初学者的需求,从零开始、系统全面地...
《中国海洋油气开发装备研发史》内容简介:本书是“中国船舶研发史”丛书之一,主要介绍了我国典型海洋油气开发装备的研发背景、设
《家屋与嘉绒藏族社会结构》内容简介:本书根据对中国四川省雅安市宝兴县硗碛藏族乡的田野调查资料,以家屋的名号“房名”的研究为
《人人都应该知道的人工智能》内容简介:本书是斯坦福大学教授杰瑞·卡普兰继其畅销书《人工智能时代》之后的又一部重磅新作,详尽