作者:《Dataintensive Text Processing With Mapreduce》书籍
出版社:Morgan and Claypool Publishers
出版年:2010-4-30
评分:8.9
ISBN:9781608453429
所属分类:网络科技
Our world is being revolutionized by data-driven methods: access to large amounts of data has generated new insights and opened exciting new opportunities in commerce, science, and computing applications. Processing the enormous quantities of data necessary for these advances requires large clusters, making distributed computing paradigms more crucial than ever. MapReduce is a programming model for expressing distributed computations on massive datasets and an execution framework for large-scale data processing on clusters of commodity servers. The programming model provides an easy-to-understand abstraction for designing scalable algorithms, while the execution framework transparently handles many system-level details, ranging from scheduling to synchronization to fault tolerance. This book focuses on MapReduce algorithm design, with an emphasis on text processing algorithms common in natural language processing, information retrieval, and machine learning. We introduce the notion of MapReduce design patterns, which represent general reusable solutions to commonly occurring problems across a variety of problem domains. This book not only intends to help the reader "think in MapReduce", but also discusses limitations of the programming model as well.
1.Introduction
2.MapReduce Basics
3.MapReduce Algorithm Design
4. Inverted Indexing for Text Retrieval
5.Graph Algorithms
6.EM Algorithms for Text Processing
7.Closing Remarks
内容简介:通过创建更具交互性的富Web界面增强用户体验本书阐述如何利用少量的JavaScript基础知识将jQuery框架整合进网站,以创建
《XilinxFPGA开发实用教程》系统讲述了XilinxFPGA的开发知识,包括FPGA开发简介、VerilogHDL语言基础、基于Xilinx芯片的HDL语...
《从零开始做抖音短视频》内容简介:本书作者运营的自媒体账号“台球帝”在抖音和快手两个平台共拥有300多万粉丝量,在亲自运营的基
《通信用户线路终端安装与维护》以职业能力培训为目标,以安装、维护的基本流程为编写主线,以项目为载体,以工作过程为导向,将
Webservices,usuallyincludingsomecombinationofprogramminganddata,aremadeavailable...
《空间信息网络传输协议》内容简介:本书系统、全面地介绍了空间信息网络的特点及其对传输协议造成的影响;重点介绍和讨论了空间信
在《SOA&Web2.0:新商业语言》中,SandyCalter示范了将企业解构为“组件化”业务模式的方法,然后用相互连接的、可重复的并且能快
本书通过大量的20世纪设计案例,从简·奇尔切奥得的《新版式》的版式设计到鲍豪斯的平面设计,再到耐克的产品目录,对栅格系统作
《元帅的女儿》内容简介:本书是贺捷生以自己童年和青少年时代具有传奇色彩的经历为主要叙述线索的非虚构,也是她首次以自己为主角
Learnfromtheaward-winningprogrammingseriesthatinspiredtheElixirlanguage.Hearhowo...
《头部主播养成计划:打造你的超级带货力》内容简介:如何定义电商和新零售?为什么直播卖货如此火爆?如何选择合适的直播带货平台
本书首先回顾了与全书其他内容切实相关的UNIX系统内幕。回顾的目的是增进读者对UNIX操作系统概念的了解,并且定义随后使用的术语
《区块链启示录:中本聪文集》内容简介:本书整理了中本聪所发表的比特币白皮书、在几个网络论坛的对话精选以及部分相关的私人往来
《OpenStack高可用集群(下册)》内容简介:本书从OpenStack终端用户的角色出发,以面向生产系统的OpenStack高可用集群建设为主线,
AstheindustrystandardmethodforenrichingthepresentationofHTML-basedwebpages,Casca...
VisualBasic程序设计实验教程 本书特色 吴昊编著的《Visual Basic程序设计实验教程》是《Visual Basic程序设计》配套的实验教材,帮...
Erlangisthelanguageofchoiceforprogrammerswhowanttowriterobust,concurrentapplicat...
《程序员面试攻略》介绍程序员在求职过程所面临的求职沟通和程序设计技能两个方面的问题。在程序设计技能方面,《程序员面试攻略
《Python数据可视化编程实战》是一本使用Python实现数据可视化编程的实战指南,介绍了如何使用Python最流行的库,通过60余种方法
《近代法律人的世界》内容简介:本书为中国社会科学院近代史研究所法律史研究群、华中科技大学近代法研究所、华东政法大学法律文明