《深入搜索引擎:海量信息的压缩、索引和查询》是斯坦福大学信息检索和挖掘课程的首选教材之一,并已成为全球主要大学信息检索的主要教材。《深入搜索引擎:海量信息的压缩、索引和查询》理论和实践并重,深入浅出地给出了海量信息数据处理的整套解决方案,包括压缩、索引和查询的方方面面。其最大的特色在于不仅仅满足信息检索理论学习的需要,更重要的是给出了实践中可能面对的各种问题及其解决方法。
《深入搜索引擎:海量信息的压缩、索引和查询》作为斯坦福大学信息检索课程的教材之一,具有一定的阅读难度,主要面向信息检索专业高年级本科生和研究生、搜索引擎业界的专业技术人员和从事海量数据处理相关专业的技术人员。
第1章 概览
1.1 文档数据库(DOCUMENT DATABASES)
1.2 压缩(COMPRESSION)
1.3 索引(INDEXES)
1.4 文档索引
1.5 MG海量文档管理系统
1.6 进一步阅读
第2章 文本压缩
2.1 模型
2.2 自适应模型
2.3 哈夫曼编码
范式哈夫曼编码
计算哈夫曼编码长度
总结
2.4 算术编码
算术编码是如何工作的
实现算术编码
保存累积计数
2.5 符号模型
部分匹配预测
块排序压缩
动态马尔科夫压缩
基于单字的压缩
2.6 字典模型
自适应字典编码器的LZ77系列
LZ77的Gzip变体
自适应字典编码器的LZ78系列
LZ78的LZW变体
2.7 同步
创造同步点
自同步编码
2.8 性能比较
压缩性能
压缩速度
其他性能方面的考虑
2.9 进一步阅读
第3章 索引
3.1 样本文档集合
3.2 倒排文件索引
3.3 压缩倒排文件
无参模型(Nonparameterized models)
全局贝努里模型
全局观测频率模型(Global observed frequency model)
局部贝努里模型(Local Bernoulli model)
有偏贝努里模型(Skewed Bernoulli model)
局部双曲模型(Local hyperbolic model)
局部观测频率模型(Local observed frequency model)
上下文相关压缩(Context-sensitive compression)
3.4 索引压缩方法的效果
3.5 签名文件和位图
签名文件
位片签名文件(Bitsliced signature files)
签名文件分析
位图
签名文件和位图的压缩
3.6 索引方法的比较
3.7 大小写折叠、词根化和停用词
大小写折叠
词根化
影响索引长度的因素
停用词(stop word)
3.8 进一步阅读
第4章 查询
4.1 访问字典的方法
访问数据结构
前端编码(Front coding)
最小完美哈希函数
完美哈希函数的设计
基于磁盘的字典存储
4.2 部分指定的查询术语
字符串暴力匹配(Brute-force string matching)
用n-gram索引
循环字典(Rotated lexicon)
4.3 布尔查询(BOOLEAN QUERY)
合取查询(conjunctive query)
术语处理顺序
随机访问和快速查找
分块倒排索引
非合取查询(Nonconjunctive query)
4.4 信息检索和排名
坐标匹配(Coordinate matching)
内积相似度
向量空间模型
4.5 检索效果评价
召回率和精确率
召回率-精确率曲线
TREC项目 208
万维网搜索(World Wide Web Searching)
其他有效性评价方法
4.6 余弦法实现
文档内频率
余弦值的计算方法
文档权重所需的内存
累加器内存
快速查询处理
按频率排序的索引
排序
4.7 交互式检索
相关性反馈
概率模型
4.8 分布式检索
4.9 进一步阅读
第5章 索引构造
第6章 图像压缩
第7章 文本图像
第8章 混合图文
第9章 系统实现
第10章 信息爆炸
附录A MG系统指南
附录B 新西兰图书馆
《TD-LTE无线网络规划与设计》由戴源、朱晨鸣、王强、赵超、王太峰等人编著,首先介绍了TD-LTE的网络结构、关键技术、空中接口;
Thisbookprovidesandin-depthexaminationofthecoreconceptsandgeneralprinciplesofweb...
《现代数字与模拟通信系统(第4版)(英文版)》是电子工程领域中的理想的通信系统入门教材。作者首先介绍了信号与系统的基础理论和通
《操作系统概念》(第6版翻译版)是讨论了操作系统中的基本概念和算法,并对大量实例(如Linux系统)进行了研究。全书内容共分七部分
本书系“世纪人文系列丛书”之“袖珍经典”中的一种。所谓分类,是指人们把事物,事件以及有关世界的事实划分成类和种,使之各有
Inapost-9/11world,thepresentisasunpredictableasanyfuture...Paidtopredictthehotte...
儿童数码照片处理与设计宝典 本书特色 《儿童数码照片处理与设计宝典》编辑推荐:光盘中素材文件夹收录了24个生肖模板,24个星座模板,44套英文字体,以及25张精...
细说AJAX与jQuery 本书特色 本书主要学习JavaScript中两个**的知识点:*个为AJAX,它是客户端JavaScript与后端服务器进行交流的一...
《中国外资银行百年史(1845-1949)》内容简介:近代中国的外资银行是指以完全或部分外国资本在中国境内经营银行业务的金融机构,包
本书首先通过“总体架构”梳理了各个模块的分类、功能和依赖关系,让大家对jQuery的工作原理有大致的印象;进而通过“构造jQuery
SAP入门经典-(第5版) 本书特色 《SAP入门经典(第5版)》是由业内专家编写的SAP入门教程,其中对SAP的各种主要产品与组件进行了较为详细的介绍,并且从...
《性/别、身体与故事社会学》内容简介:本书借鉴普拉莫(Plummer)的“讲述性故事”,基于多类人群(不同年龄段的城市女性、乳腺癌
Forgetschoolmathclass,Flashmathisaboutfun.Itswhatyoudoinyoursparetime-messingaro...
《国语》内容简介:本书相传为春秋时期鲁国史官左丘明所作。全书共21卷,分别记载了西周末年至春秋时期(约BC967—BC453)周、鲁、
Excel VBA编程实战宝典-附DVD光盘 本书特色 “开发宝典丛书”是由清华大学出版社为软件开发爱好者精心打造的一套软件开发百科全书。丛书强调“全面...
《设计方法学》是一部讲授创新思维与设计方法的书籍,分上、下两篇。上篇是“思维篇”,通过对思维、心理、视觉等方面的大量研究
《赤子:余光中散文》内容简介:收录当代散文大师余光中的散文代表作,横跨诗歌、散文、评论、翻译四维写作空间,尽显一代文豪刚柔
空间信息系统的集成与实现 本书特色 李德仁院士为课题主持人,由数十名教授、副教授、博士生和硕士生组成课题组,对空间信息系统的集成与实现进行了深入的理论探讨和一系...
交互式计算机图形学基于OPENGL的自顶向下方法(第5版)英文版 本书特色 《交互式计算机图形学——基于OpenGL的自顶向下方法》可作为计算机及相关专业本科生...
GetaquickintroductiontoWebGL,thenewstandardfor3Drenderingontheweb.WithWebGL,webd...