《深入搜索引擎:海量信息的压缩、索引和查询》是斯坦福大学信息检索和挖掘课程的首选教材之一,并已成为全球主要大学信息检索的主要教材。《深入搜索引擎:海量信息的压缩、索引和查询》理论和实践并重,深入浅出地给出了海量信息数据处理的整套解决方案,包括压缩、索引和查询的方方面面。其最大的特色在于不仅仅满足信息检索理论学习的需要,更重要的是给出了实践中可能面对的各种问题及其解决方法。
《深入搜索引擎:海量信息的压缩、索引和查询》作为斯坦福大学信息检索课程的教材之一,具有一定的阅读难度,主要面向信息检索专业高年级本科生和研究生、搜索引擎业界的专业技术人员和从事海量数据处理相关专业的技术人员。
第1章 概览
1.1 文档数据库(DOCUMENT DATABASES)
1.2 压缩(COMPRESSION)
1.3 索引(INDEXES)
1.4 文档索引
1.5 MG海量文档管理系统
1.6 进一步阅读
第2章 文本压缩
2.1 模型
2.2 自适应模型
2.3 哈夫曼编码
范式哈夫曼编码
计算哈夫曼编码长度
总结
2.4 算术编码
算术编码是如何工作的
实现算术编码
保存累积计数
2.5 符号模型
部分匹配预测
块排序压缩
动态马尔科夫压缩
基于单字的压缩
2.6 字典模型
自适应字典编码器的LZ77系列
LZ77的Gzip变体
自适应字典编码器的LZ78系列
LZ78的LZW变体
2.7 同步
创造同步点
自同步编码
2.8 性能比较
压缩性能
压缩速度
其他性能方面的考虑
2.9 进一步阅读
第3章 索引
3.1 样本文档集合
3.2 倒排文件索引
3.3 压缩倒排文件
无参模型(Nonparameterized models)
全局贝努里模型
全局观测频率模型(Global observed frequency model)
局部贝努里模型(Local Bernoulli model)
有偏贝努里模型(Skewed Bernoulli model)
局部双曲模型(Local hyperbolic model)
局部观测频率模型(Local observed frequency model)
上下文相关压缩(Context-sensitive compression)
3.4 索引压缩方法的效果
3.5 签名文件和位图
签名文件
位片签名文件(Bitsliced signature files)
签名文件分析
位图
签名文件和位图的压缩
3.6 索引方法的比较
3.7 大小写折叠、词根化和停用词
大小写折叠
词根化
影响索引长度的因素
停用词(stop word)
3.8 进一步阅读
第4章 查询
4.1 访问字典的方法
访问数据结构
前端编码(Front coding)
最小完美哈希函数
完美哈希函数的设计
基于磁盘的字典存储
4.2 部分指定的查询术语
字符串暴力匹配(Brute-force string matching)
用n-gram索引
循环字典(Rotated lexicon)
4.3 布尔查询(BOOLEAN QUERY)
合取查询(conjunctive query)
术语处理顺序
随机访问和快速查找
分块倒排索引
非合取查询(Nonconjunctive query)
4.4 信息检索和排名
坐标匹配(Coordinate matching)
内积相似度
向量空间模型
4.5 检索效果评价
召回率和精确率
召回率-精确率曲线
TREC项目 208
万维网搜索(World Wide Web Searching)
其他有效性评价方法
4.6 余弦法实现
文档内频率
余弦值的计算方法
文档权重所需的内存
累加器内存
快速查询处理
按频率排序的索引
排序
4.7 交互式检索
相关性反馈
概率模型
4.8 分布式检索
4.9 进一步阅读
第5章 索引构造
第6章 图像压缩
第7章 文本图像
第8章 混合图文
第9章 系统实现
第10章 信息爆炸
附录A MG系统指南
附录B 新西兰图书馆
WithcontributionsbyMichaelAshikhmin,MichaelGleicher,NatyHoffman,GarrettJohnson,T...
《电子商务网页设计》内容简介:本书针对中等职业学校电子商务专业和计算机类专业的网页设计与制作的教材或参考书,共分十二个项目
——这是本会让你震撼且爱不释手的平面设计典藏书籍由hesignPublisher推出的《国际平面设计师一百单八将》,收录来自世界各地的1
《汉英科技辞典(精装)》是一部综合性工业技术词典,共收入词汇约20万条。《汉英科技辞典(精装)》以通用技术词汇、机械、冶金、电
《Java EE核心框架实战》内容简介:本书旨在提高读者的学习效率,增强其项目实战能力。为此,本书摒弃了软件公司中不常用或不实用的
ThisbookwillintroduceyoutothePythonprogramminglanguage.It’saimedatbeginningprogr...
《CSS选择器世界(第2版)》内容简介:CSS选择器是CSS世界的支柱,撑起了整个精彩纷呈的CSS世界。本书专门介绍CSS选择器的相关知识
《大数据技术入门(第2版)》内容简介:目前国内大数据市场继续保持高速的发展态势,作者在与地方政府、证券金融公司的项目合作中发
《React Cookbook中文版:87个案例带你精通React框架》内容简介:React可以帮助你便捷地创建和处理应用程序,但要掌握如何将各部分
TheHyperTextTransferProtocol,orHTTP,isthebackboneoftheWorldWideWeb.HTTPisthelang...
《FlashActionScript3.0动画高级教程》是介绍Flash10ActionScript动画高级技术的经典之作,是作者在这一领域中多年实践经验的结晶
《工程和设计中的人因学(第7版)》的核心是论述人因学的问题,即研究“为人所用而设计”(DesigningforHumanUse)的问题。它把系统
中文版Dreamweaver+Flash+Photoshop网页制作从入门到精通-CS5版-随书附赠光盘 本书特色 16大核心技术精解本书体系结构完整,由浅入深...
《公司战略与风险管理》内容简介:本教材以注册会计师协会新颁布的《注册会计师全国统一考试大纲》为依据,面向“公司战略与风险管
软件“风格”所要讨论的主题是如何在开销与功能之间、优雅与可维护性之间、灵活。性与过分灵活之间寻找完美的平街点。在本书中,
撰稿人毛丹青外号“阿毛”,中国国籍。北京大学毕业后进入中国社会科学院哲学所,1987年留日定居,做过鱼虾生意,当过商人,游历
正在发生的未来——手机人的族群与趋势基于独家真实数据盘点2011年中国手机业发展状况,基于独到研究方法解析手机人族群,基于独
《程序化广告实战》内容简介:本书由浅至深,专注于剖析“程序化广告实战”业务,讲解了程序化广告的原理,并分析了产业上下游的发
五笔字型短训教程 内容简介 本书从*基本的指法开始讲起,全面、系统地介绍了86版五笔字型输入法、98版五笔字型输入法。本书是一本指导读者学习五笔字型输入法的培训...
《深入理解JavaScript特性》内容简介:本书旨在让读者轻松学习JavaScript的新进展,包括ES6及后续更新。书中提供了大量实用示例,以