《深入搜索引擎:海量信息的压缩、索引和查询》是斯坦福大学信息检索和挖掘课程的首选教材之一,并已成为全球主要大学信息检索的主要教材。《深入搜索引擎:海量信息的压缩、索引和查询》理论和实践并重,深入浅出地给出了海量信息数据处理的整套解决方案,包括压缩、索引和查询的方方面面。其最大的特色在于不仅仅满足信息检索理论学习的需要,更重要的是给出了实践中可能面对的各种问题及其解决方法。
《深入搜索引擎:海量信息的压缩、索引和查询》作为斯坦福大学信息检索课程的教材之一,具有一定的阅读难度,主要面向信息检索专业高年级本科生和研究生、搜索引擎业界的专业技术人员和从事海量数据处理相关专业的技术人员。
第1章 概览
1.1 文档数据库(DOCUMENT DATABASES)
1.2 压缩(COMPRESSION)
1.3 索引(INDEXES)
1.4 文档索引
1.5 MG海量文档管理系统
1.6 进一步阅读
第2章 文本压缩
2.1 模型
2.2 自适应模型
2.3 哈夫曼编码
范式哈夫曼编码
计算哈夫曼编码长度
总结
2.4 算术编码
算术编码是如何工作的
实现算术编码
保存累积计数
2.5 符号模型
部分匹配预测
块排序压缩
动态马尔科夫压缩
基于单字的压缩
2.6 字典模型
自适应字典编码器的LZ77系列
LZ77的Gzip变体
自适应字典编码器的LZ78系列
LZ78的LZW变体
2.7 同步
创造同步点
自同步编码
2.8 性能比较
压缩性能
压缩速度
其他性能方面的考虑
2.9 进一步阅读
第3章 索引
3.1 样本文档集合
3.2 倒排文件索引
3.3 压缩倒排文件
无参模型(Nonparameterized models)
全局贝努里模型
全局观测频率模型(Global observed frequency model)
局部贝努里模型(Local Bernoulli model)
有偏贝努里模型(Skewed Bernoulli model)
局部双曲模型(Local hyperbolic model)
局部观测频率模型(Local observed frequency model)
上下文相关压缩(Context-sensitive compression)
3.4 索引压缩方法的效果
3.5 签名文件和位图
签名文件
位片签名文件(Bitsliced signature files)
签名文件分析
位图
签名文件和位图的压缩
3.6 索引方法的比较
3.7 大小写折叠、词根化和停用词
大小写折叠
词根化
影响索引长度的因素
停用词(stop word)
3.8 进一步阅读
第4章 查询
4.1 访问字典的方法
访问数据结构
前端编码(Front coding)
最小完美哈希函数
完美哈希函数的设计
基于磁盘的字典存储
4.2 部分指定的查询术语
字符串暴力匹配(Brute-force string matching)
用n-gram索引
循环字典(Rotated lexicon)
4.3 布尔查询(BOOLEAN QUERY)
合取查询(conjunctive query)
术语处理顺序
随机访问和快速查找
分块倒排索引
非合取查询(Nonconjunctive query)
4.4 信息检索和排名
坐标匹配(Coordinate matching)
内积相似度
向量空间模型
4.5 检索效果评价
召回率和精确率
召回率-精确率曲线
TREC项目 208
万维网搜索(World Wide Web Searching)
其他有效性评价方法
4.6 余弦法实现
文档内频率
余弦值的计算方法
文档权重所需的内存
累加器内存
快速查询处理
按频率排序的索引
排序
4.7 交互式检索
相关性反馈
概率模型
4.8 分布式检索
4.9 进一步阅读
第5章 索引构造
第6章 图像压缩
第7章 文本图像
第8章 混合图文
第9章 系统实现
第10章 信息爆炸
附录A MG系统指南
附录B 新西兰图书馆
Ifyouveusedamoretraditionalobject-orientedlanguage,suchasC++orJava,JavaScriptpro...
支持向量机鲁棒性模型与算法研究 本书特色 支持向量机是基于统计学习理论,以结构风险*小化为原则的一种针对小样本情况的新型机器学习方法,具有结构简单、全局*解和泛...
书由国内资深前端工程师撰写,是目前内容最为全面和深入的Bootstrap专著。它不仅系统讲解了Bootstrap的各项功能和使用方法,详细
这不仅仅是一本图书!还有多媒体光盘、网站……将带你进入全新的世界!本书采用最先进的方法和技术讲述计算机基础知识,涉及面之
《Cocos2d-x 3.x游戏开发实战》内容简介:《Cocos2d-x 3.x游戏开发实战》是一本介绍Cocos2d-x游戏引擎的实用图书,全面介绍了最新的
《变局之解》内容简介:面对大变局,本书主要关注2个核心问题: 1.全球代表性科技智库到底在研究什么? 2.对于关键科技议题,全球代
《天神和人》内容简介:本书讲述中西方的神话故事,主要是西方的希腊神话中宇宙体系的构建者和中华文明的古老神话中关于宇宙形成的
《程序员必读的职业规划书》内容简介:程序员是一种逻辑动物,只有当他们理解求职到底是一种什么行为以后,才能做出有意义的行动。
五笔字词速查词典第2版 本书特色 1999年五笔教学研究组在北京金桥电脑学校成立成员都是有着丰富教学经验的电脑培训中心的教师,随着全国五笔爱好者的不断加入,成员...
qmailhasquietlybecomeoneofthemostwidelyusedapplicationsontheInternettoday.Itspow...
《和秋叶一起学Word(第3版)》内容简介:Word、PPT、Excel,哪一个值得你花精力去学习? 我认为是Word,因为Word软件的使用频率高
Scala是一种针对JVM的通用的编程语言,用来以简明、优雅、类型安全的方式表示常见的编程模式。它无缝集成了面向对象语言和函数式
网络工程师-全国计算机等级考试四级教程-2011年版 本书特色 《全国计算机等级考试四级教程:网络工程师(2011年版)》是由高等教育出版社出版的。网络工程师-...
CATIA V5R21产品工程师宝典-(也适合V5R20版)-(附2DVD) 本书特色 《catia v5r21产品工程师宝典(也适合v5r20版)》是从零开始...
《JavaScript+Vue.js web开发案例教程(在线实训版)》内容简介:随着互联网技术的不断发展,JavaScript语言及其相关技术越来越受人
《民营科技企业的技术创新战略和政策选择》内容分为五个部分,首先分析了目前我国民营科技企业的发展现状和特点,然后从增强我国
《微机原理及应用》是教育科学“十五”国家规划课题研究成果。全书共13章,包括:基础知识,微型计算机概论,8086/8088指令系统与
MATLAB R2016a完全自学一本通-畅销升级版-附赠近150页超值电子书 本书特色 本书面向MATLAB的初中级读者,在介绍MATLAB R2016a集成...
《隔屏相遇:如何做好网络心理咨询》内容简介:本书在新冠肺炎疫情的大背景下,网络心理咨询很好地解决了“日益增长的心理咨询需求
《实现正义的选择与规范》内容简介:实现正义在于民事诉讼制度的不断规范。证据是法庭认定事实的依据,民事诉讼中的证据制度是关于