作者:《Dataintensive Text Processing With Mapreduce》书籍
出版社:Morgan and Claypool Publishers
出版年:2010-4-30
评分:8.9
ISBN:9781608453429
所属分类:网络科技
Our world is being revolutionized by data-driven methods: access to large amounts of data has generated new insights and opened exciting new opportunities in commerce, science, and computing applications. Processing the enormous quantities of data necessary for these advances requires large clusters, making distributed computing paradigms more crucial than ever. MapReduce is a programming model for expressing distributed computations on massive datasets and an execution framework for large-scale data processing on clusters of commodity servers. The programming model provides an easy-to-understand abstraction for designing scalable algorithms, while the execution framework transparently handles many system-level details, ranging from scheduling to synchronization to fault tolerance. This book focuses on MapReduce algorithm design, with an emphasis on text processing algorithms common in natural language processing, information retrieval, and machine learning. We introduce the notion of MapReduce design patterns, which represent general reusable solutions to commonly occurring problems across a variety of problem domains. This book not only intends to help the reader "think in MapReduce", but also discusses limitations of the programming model as well.
1.Introduction
2.MapReduce Basics
3.MapReduce Algorithm Design
4. Inverted Indexing for Text Retrieval
5.Graph Algorithms
6.EM Algorithms for Text Processing
7.Closing Remarks
《天文学简史(中文版)》内容简介:史前的农夫利用天上的星辰判断季节的更替;古希腊天文学与古巴比伦天文学合流;17世纪,牛顿提
CSS布局是目前最流行的网页制作技术之一。本书通过实例讲解了CSS各个属性的使用方法和怎样使用CSS进行页面的制作。本书内容包括W
喧嚣商战,细数李彦宏与新浪、网易、搜狐、淘宝掌门人的恩怨纠葛!风云起伏,独创划分十年百度的“三大帝国”断代史!独门秘籍,
数据分析实战-基于EXCEL和SPSS系列工具的实践 本书特色 本书分为三大部分,*部分基础篇(第1章和第2章)主要介绍数据分析的概念、术语、方法、模型等,为后...
《中国原生文明启示录(上册):国家开端》内容简介:这是一本理清中国前3000年文明史的书。3000年,华夏族群历经了7大时代——五帝
《普通高等院校电子信息类系列教材·无线通信调制与编码》主要介绍了无线通信中调制与编码的原理及其应用。全书共分7章,内容包括
断点-互联网进化启示录 本书特色 一部神经学、生物学与互联网技术大融合的互联网进化史诗巨著。我们正置身网络革命中。互联网的每一丝变化都与你我息息相关。当科技变得...
REpresentationalStateTransfer,betterknownasREST,isthearchitecturalstylethatgover...
ThemostcompleteguidetoCiscoCatalyst(r)switchnetworkdesign,operation,andconfigura...
本书以JSP为开发语言,选取当前最流行、最具代表性的4类网站:新闻站点、论坛、电子商城和博客(Blog)系统为例,详细介绍了使用
本书通过实例的方式介绍了Macromedia公司的DreamweaverMX2004的使用方法和技巧。全书由14章组成,第1章和第2章介绍了软件的应用领
信息系统监理师教程 内容简介 《信息系统监理师教程》包括三大部分,分别是信息工程监理基础理论、信息系统工程网络建设监理、应用系统工程建设监理。全书系统地讲述信息...
《人才画像:让招聘准确率倍增》内容简介:在本书中,我们将咨询项目中常用的素质做成“素质菜单”,针对素质项的所有提问给出“精
《公司战略与风险管理(经典题库)》内容简介:《注册会计师全国统一考试专用辅导教材:公司战略与风险管理经典题库》所选练习题,
《五凉史》内容简介:◆“十六国史新编”之一,著名历史学家赵向群代表作全新修订。◆汇集传世史料与出土文献,还原魏晋南北朝大分
《数字经济与数字货币》内容简介:数字经济正加速向经济运行的每个细节渗透,带来一场经济系统的变革,潜移默化地改变着经济运行的
《家屋与嘉绒藏族社会结构》内容简介:本书根据对中国四川省雅安市宝兴县硗碛藏族乡的田野调查资料,以家屋的名号“房名”的研究为
《移动基站设备与维护》全面、系统地阐述了现代移动基站的基本原理、基本技术和当今广泛使用的各类设备及维护技术规范,较充分地
《DSLR数码单反摄影宝典》内容简介:《DSLR数码单反摄影宝典》共分五篇18章,从基础入门开始为读者介绍如何定位相机,并根据需要挑
《王道与霸道:涩泽荣一对华态度与交往研究》内容简介:作为日本近代资本主义发展史上最为重要的人物之一,涩泽荣一与中国近代史的