作者:《Dataintensive Text Processing With Mapreduce》书籍
出版社:Morgan and Claypool Publishers
出版年:2010-4-30
评分:8.9
ISBN:9781608453429
所属分类:网络科技
Our world is being revolutionized by data-driven methods: access to large amounts of data has generated new insights and opened exciting new opportunities in commerce, science, and computing applications. Processing the enormous quantities of data necessary for these advances requires large clusters, making distributed computing paradigms more crucial than ever. MapReduce is a programming model for expressing distributed computations on massive datasets and an execution framework for large-scale data processing on clusters of commodity servers. The programming model provides an easy-to-understand abstraction for designing scalable algorithms, while the execution framework transparently handles many system-level details, ranging from scheduling to synchronization to fault tolerance. This book focuses on MapReduce algorithm design, with an emphasis on text processing algorithms common in natural language processing, information retrieval, and machine learning. We introduce the notion of MapReduce design patterns, which represent general reusable solutions to commonly occurring problems across a variety of problem domains. This book not only intends to help the reader "think in MapReduce", but also discusses limitations of the programming model as well.
1.Introduction
2.MapReduce Basics
3.MapReduce Algorithm Design
4. Inverted Indexing for Text Retrieval
5.Graph Algorithms
6.EM Algorithms for Text Processing
7.Closing Remarks
《Oracle Exadata技术详解》内容简介:本书假定读者对关系型数据库,尤其是Oracle数据库有一定程度的了解,否则有可能对书中的某些
《云安全实用指南》内容简介:《云安全实用指南》是一本关于云环境安全防护的实用指南,书中给出了目前在主流云平台上的一些安全实
电波传播的特性是研究移动通信系统首先要遇到问题,称动传播环境的特性不仅是所有移动通信理论研究的基础,也更直接关系到工程设
《Git权威指南》是Git领域的集大成之作,是一本关于Git的百科全书,在广度、深度和实战性上让同类作品望尘莫及。作者是国内顶尖的
计算机系统结构(第四版) 本书特色 《计算机系统结构》内容丰富,取材适当,每章均有大量例题和习题,书末附有主要习题的参考答案。《计算机系统结构》可作为计算机专业...
本书系统地阐述了人因工程学的基础理论、设计方法及应用分析。全书共12章,第1章为人因工程学总论,第2章至第5章为人的形态、生理
《产品生命周期管理:21世纪企业制胜之道》主要内容:产品生命周期管理是当今制造企业重要的管理理念和方法,对提升我阳制造企业的
《基于用户体验的交互式信息服务》针对信息管理和服务中的“交互“问题,在国内外现有研究的基础上,从用户需求出发,围绕交互式
《数字信号处理实验指导书》(MATLAB版)是《数字信号处理:基于计算机的方法》(第2版)一书的配套实验手册,内容涵盖了信号与信号
《守正出奇》内容简介:对数字化传播的本质和特征的探讨,是《守正出奇:传统美妆品牌的数字化传播》的研究定位和目标;以美妆品牌
《绘画的捷径》内容简介:本书共14章,前半部分内容主要包括为什么画、画什么、绘画基础、有效练习、人体造型等内容,使读者有一个
《包豪斯:大师和学生们》由弗兰克•惠特福德等所著,以时间为主线,通过在包豪斯学习和工作过的大师级人物的视角,精心梳理了包豪
这是湖南美术出版社出版的《德国新媒体插画教程》系列中的两本插画书之幻想类一本。由来自德国HAW的孟克塔塞尔教授引领,展示了他
OWASP是一个开源的、非盈利的全球性安全组织,致力于应用软件的安全研究,在业界具有一流的影响力和**性。作为OWASP面向中国的区
《点茶之书:一盏宋茶的技艺与美学》内容简介:中国的茶文化“兴于唐,盛于宋”,两宋时期由于文人士大夫积极推广、参与,茶文化得
《这样玩微信,赚钱赚人气》内容简介:如今,月活跃用户突破10亿大关的微信已成为名副其实的全民应用,甚至出现了“移动互联网=微信
《深入理解OpenCV(原书第3版)》内容简介:本书(现在是第3版)是计算机视觉工程师使用OpenCV作为工具的系列丛书之一。本书保留了
ThisbookprovidesacomPrehensive,modemaPproachtosignalsandsystems,concentfatingont...
《移动App性能评测与优化》内容简介:本书通过六个专题方向介绍腾讯公司移动互联网事业群在移动应用性能评测优化方面的实战经验,涉
《原力:再造企业价值战略》内容简介:在移动互联背景下,商业环境发生了巨大变化,新商业模式正在井喷,巨大的价值潜力不断释放。