《深入搜索引擎:海量信息的压缩、索引和查询》是斯坦福大学信息检索和挖掘课程的首选教材之一,并已成为全球主要大学信息检索的主要教材。《深入搜索引擎:海量信息的压缩、索引和查询》理论和实践并重,深入浅出地给出了海量信息数据处理的整套解决方案,包括压缩、索引和查询的方方面面。其最大的特色在于不仅仅满足信息检索理论学习的需要,更重要的是给出了实践中可能面对的各种问题及其解决方法。
《深入搜索引擎:海量信息的压缩、索引和查询》作为斯坦福大学信息检索课程的教材之一,具有一定的阅读难度,主要面向信息检索专业高年级本科生和研究生、搜索引擎业界的专业技术人员和从事海量数据处理相关专业的技术人员。
第1章 概览
1.1 文档数据库(DOCUMENT DATABASES)
1.2 压缩(COMPRESSION)
1.3 索引(INDEXES)
1.4 文档索引
1.5 MG海量文档管理系统
1.6 进一步阅读
第2章 文本压缩
2.1 模型
2.2 自适应模型
2.3 哈夫曼编码
范式哈夫曼编码
计算哈夫曼编码长度
总结
2.4 算术编码
算术编码是如何工作的
实现算术编码
保存累积计数
2.5 符号模型
部分匹配预测
块排序压缩
动态马尔科夫压缩
基于单字的压缩
2.6 字典模型
自适应字典编码器的LZ77系列
LZ77的Gzip变体
自适应字典编码器的LZ78系列
LZ78的LZW变体
2.7 同步
创造同步点
自同步编码
2.8 性能比较
压缩性能
压缩速度
其他性能方面的考虑
2.9 进一步阅读
第3章 索引
3.1 样本文档集合
3.2 倒排文件索引
3.3 压缩倒排文件
无参模型(Nonparameterized models)
全局贝努里模型
全局观测频率模型(Global observed frequency model)
局部贝努里模型(Local Bernoulli model)
有偏贝努里模型(Skewed Bernoulli model)
局部双曲模型(Local hyperbolic model)
局部观测频率模型(Local observed frequency model)
上下文相关压缩(Context-sensitive compression)
3.4 索引压缩方法的效果
3.5 签名文件和位图
签名文件
位片签名文件(Bitsliced signature files)
签名文件分析
位图
签名文件和位图的压缩
3.6 索引方法的比较
3.7 大小写折叠、词根化和停用词
大小写折叠
词根化
影响索引长度的因素
停用词(stop word)
3.8 进一步阅读
第4章 查询
4.1 访问字典的方法
访问数据结构
前端编码(Front coding)
最小完美哈希函数
完美哈希函数的设计
基于磁盘的字典存储
4.2 部分指定的查询术语
字符串暴力匹配(Brute-force string matching)
用n-gram索引
循环字典(Rotated lexicon)
4.3 布尔查询(BOOLEAN QUERY)
合取查询(conjunctive query)
术语处理顺序
随机访问和快速查找
分块倒排索引
非合取查询(Nonconjunctive query)
4.4 信息检索和排名
坐标匹配(Coordinate matching)
内积相似度
向量空间模型
4.5 检索效果评价
召回率和精确率
召回率-精确率曲线
TREC项目 208
万维网搜索(World Wide Web Searching)
其他有效性评价方法
4.6 余弦法实现
文档内频率
余弦值的计算方法
文档权重所需的内存
累加器内存
快速查询处理
按频率排序的索引
排序
4.7 交互式检索
相关性反馈
概率模型
4.8 分布式检索
4.9 进一步阅读
第5章 索引构造
第6章 图像压缩
第7章 文本图像
第8章 混合图文
第9章 系统实现
第10章 信息爆炸
附录A MG系统指南
附录B 新西兰图书馆
The3GIPMultimediaSubsystem(IMS):MergingtheInternetandtheCellularWorlds,SecondEdi...
《机械分析应用基础(第2版)》内容简介:本书是以机械分析为主线,整合“机械原理”“机械设计”“互换性与测量技术基础”及“工程
《数字货币——比特币数据报告与操作指南》是壹比特科技数字货币研究团队倾力编写的一本关于数字货币白皮书,书中详细阐述了包括
《人人都能做主播》内容简介:网络主播和短视频进入门槛极低,但成功率却不高。这是因为直播达人和短视频达人并不像电视台主播一样
作者简介:中嶋谦互从小学开始学习游戏编程,进入大学后正式参与游戏开发。1996年开发了世界上第一款使用JavaApplet的MMORPG,19
WhentheDecorativeArtsdedicateshimanexhibition,thiswholemonographpaysparticularat...
《官渡杀人事件》内容简介:作品改编自马伯庸短篇小说集《三国配角演义》中的《官渡杀人事件》。建安六年,“官渡之战”主公曹操大
本书收集了作者在试验心理学这一研究领域发表过的五篇最著名的论文以及其他若干论文。每篇旧论文后面都有作者的后记,回顾该文发
机器人控制系统的设计与MATLAB仿真 本书特色 《机器人控制系统的设计与MATLAB仿真》各部分内容既相互联系又各自独立,读者可根据需要选择学习。《机器人控制...
《三国不演义》内容简介:◆一部史实版《三国演义》!畅销书《大唐兴亡三百年》(原血腥的盛唐)作者王觉仁全新力作! ◆刘关张从未
《以房养老:理念与模式》内容简介:以房养老理论与建立在其上的反向抵押贷款的研究,前者是一种理念,一种横跨房地产、金融保险、
《传播学原来很有趣:16位大师的精华课》内容简介:本书围绕生活中经常出现的传播学现象,选取了16位享誉世界的传播学大师,把他们
程序员2003合订本(上下) 本书特色 《程序员2003合订本》由程序员杂志社联合电子工业出版社*新推出。本合订本沿袭2001、2002年《程序员合订本》的风格...
机器人几何代数模型与控制 内容简介 本书以作者的研究成果为依托,讲述了向量空间、李代数以及对偶数环上的旋量理论等数学工具在机器人运动学中的应用。全书包含了...
《悦吃悦瘦》内容简介:本书首先揭开众多的减肥产品的真面目,帮助读者走出减肥的误区,告诉读者如何通过合理饮食来达到减肥的目的
Dreamweaver8·Flash8·Fireworks8网站开发自学导航(含1CD) 本书特色 本书共包含20章,划分为3篇。其中:前15章为基础篇,讲解了...
《温故(二十五)》内容简介:2013年推出的第二辑《温故》, “影像”专栏刊出秦风老照片馆提供的图片共30幅,反映的时代集中在上世
本书主要以Fireworks网页效果图设计为主线,介绍网页效果图的设计流程和网页中各种页面元素的设计。书中按照网页的构成元素,如布
《大图景:论生命的起源、意义和宇宙本身》内容简介:作者用天文学、物理学、化学、生物学和哲学的丝线编织成一张宇宙大图景,让我
《欲罢不能:刷屏时代如何摆脱行为上瘾》内容简介:本书追溯了上瘾行为的兴起,考察了它们始于何处,出自何人的设计,让它们吸引力