《深入搜索引擎:海量信息的压缩、索引和查询》是斯坦福大学信息检索和挖掘课程的首选教材之一,并已成为全球主要大学信息检索的主要教材。《深入搜索引擎:海量信息的压缩、索引和查询》理论和实践并重,深入浅出地给出了海量信息数据处理的整套解决方案,包括压缩、索引和查询的方方面面。其最大的特色在于不仅仅满足信息检索理论学习的需要,更重要的是给出了实践中可能面对的各种问题及其解决方法。
《深入搜索引擎:海量信息的压缩、索引和查询》作为斯坦福大学信息检索课程的教材之一,具有一定的阅读难度,主要面向信息检索专业高年级本科生和研究生、搜索引擎业界的专业技术人员和从事海量数据处理相关专业的技术人员。
第1章 概览
1.1 文档数据库(DOCUMENT DATABASES)
1.2 压缩(COMPRESSION)
1.3 索引(INDEXES)
1.4 文档索引
1.5 MG海量文档管理系统
1.6 进一步阅读
第2章 文本压缩
2.1 模型
2.2 自适应模型
2.3 哈夫曼编码
范式哈夫曼编码
计算哈夫曼编码长度
总结
2.4 算术编码
算术编码是如何工作的
实现算术编码
保存累积计数
2.5 符号模型
部分匹配预测
块排序压缩
动态马尔科夫压缩
基于单字的压缩
2.6 字典模型
自适应字典编码器的LZ77系列
LZ77的Gzip变体
自适应字典编码器的LZ78系列
LZ78的LZW变体
2.7 同步
创造同步点
自同步编码
2.8 性能比较
压缩性能
压缩速度
其他性能方面的考虑
2.9 进一步阅读
第3章 索引
3.1 样本文档集合
3.2 倒排文件索引
3.3 压缩倒排文件
无参模型(Nonparameterized models)
全局贝努里模型
全局观测频率模型(Global observed frequency model)
局部贝努里模型(Local Bernoulli model)
有偏贝努里模型(Skewed Bernoulli model)
局部双曲模型(Local hyperbolic model)
局部观测频率模型(Local observed frequency model)
上下文相关压缩(Context-sensitive compression)
3.4 索引压缩方法的效果
3.5 签名文件和位图
签名文件
位片签名文件(Bitsliced signature files)
签名文件分析
位图
签名文件和位图的压缩
3.6 索引方法的比较
3.7 大小写折叠、词根化和停用词
大小写折叠
词根化
影响索引长度的因素
停用词(stop word)
3.8 进一步阅读
第4章 查询
4.1 访问字典的方法
访问数据结构
前端编码(Front coding)
最小完美哈希函数
完美哈希函数的设计
基于磁盘的字典存储
4.2 部分指定的查询术语
字符串暴力匹配(Brute-force string matching)
用n-gram索引
循环字典(Rotated lexicon)
4.3 布尔查询(BOOLEAN QUERY)
合取查询(conjunctive query)
术语处理顺序
随机访问和快速查找
分块倒排索引
非合取查询(Nonconjunctive query)
4.4 信息检索和排名
坐标匹配(Coordinate matching)
内积相似度
向量空间模型
4.5 检索效果评价
召回率和精确率
召回率-精确率曲线
TREC项目 208
万维网搜索(World Wide Web Searching)
其他有效性评价方法
4.6 余弦法实现
文档内频率
余弦值的计算方法
文档权重所需的内存
累加器内存
快速查询处理
按频率排序的索引
排序
4.7 交互式检索
相关性反馈
概率模型
4.8 分布式检索
4.9 进一步阅读
第5章 索引构造
第6章 图像压缩
第7章 文本图像
第8章 混合图文
第9章 系统实现
第10章 信息爆炸
附录A MG系统指南
附录B 新西兰图书馆
《Lightroom Classic原创高级实战教程》内容简介:本书讲授Lightroom Classic的高级实用性技法,分为基础篇、精通篇和高手篇。在基
OnnumerousonlineforumsforJavaScriptandDHTML,themajorityofquestionsbeginwith"Howd...
《当我们走进心理咨询室》内容简介:为什么在亲密关系中,一些人总是扮演“受害者”的角色?为什么一些人总是习惯讨好别人,对所有
清新风-CG插画技法 本书特色 cg插画是一种新兴的绘画技术,主要应用于漫画和游戏领域,因其夺目的效果而得到众多二次元爱好者的认可和推崇。本书采用清新、绚丽、雅...
我要学office2007高效办公三合一 内容简介 本书分为4篇,共12章。前三篇详细介绍了Word、Excel和PowerPoint的基础操作,第四篇以综合实...
《实现领域驱动设计》内容简介:领域驱动设计(DDD)是教我们如何做好软件的,同时也是教我们如何更好地使用面向对象技术的。它为我
《人间一格》内容简介:本书是青年作家、知名媒体人格子首部随笔集。这是一部极具个人风格的作品,是中文随笔的一次全新尝试。从童
Thewebisanever-changingmediumwhosescope,application,audienceandplatformcontinuet...
《颠覆式学习》内容简介:人工智能的进步咄咄逼人,似乎在不远的未来将让我们中的许多人失业。但我们当然不想坐以待毙,而且我们还
《普通高等教育"十一五"国家规划教材·通信网理论与应用》系统地介绍了通信网的相关理论和技术,主要内容包括通信网的基本概念及
用户故事与敏捷方法 本书特色 《用户故事与敏捷方法》:敏捷大师Mike Cohn的软件需求方法圣经,小型团队(项目)不可或缺的敏捷开发宝典,亚马逊五星级长销图书...
机器人学导论-(原书第3版) 本书特色 Craig教授根据机器人学的特点,将理论和实际应用密切结合,按照刚体力学、分析力学、机构学和控制理论中的原理和定义对机器...
《搜索引擎优化》对于DIY搜索引擎营销初学者而言,《搜索引擎优化》是一本非常好的入门读物。该书不仅涵盖了SEO的基本要素,还深
具有典型日本美学气质的设计品牌無印良品,曾以辉煌的业绩缔造出“無印神话”,其简朴的理念和高质感的产品深得消费者之心。进入
《精通ROS机器人编程(原书第2版)》内容简介:本书主要面向机器人开发人员和想充分利用ROS功能的研究人员,是一本侧重ROS框架高级
《HAWQ数据仓库与数据挖掘实战》内容简介:ApacheHAWQ是一个SQL-on-Hadoop产品,它非常适合用于Hadoop平台上快速构建数据仓库系统。
《写给大家看的面向对象编程书(第3版)》是一部独具特色的面向对象技术著作。书中结合代码示例生动透彻地讲述了面向对象思想的精髓
本书由“java之父”JameGosling以及另外三位顶级大师撰写而成,无论是对java语言的初学者还是专业程序员都具有极高的价值,是关于
《儿童歌曲演唱教程 低幼版》内容简介:《儿童歌曲演唱教程(低幼版)》适合幼儿园和小学音乐教学使用。作者:尤静波、高歌作品目录
成功的ERP项目实施——SAP R/3 本书特色 如果你正在参与ERP项目的实施,本书对你来说是不可或缺的,因为它通过一个大型SAP R3实施项目的案例研究,提...