《深入搜索引擎:海量信息的压缩、索引和查询》是斯坦福大学信息检索和挖掘课程的首选教材之一,并已成为全球主要大学信息检索的主要教材。《深入搜索引擎:海量信息的压缩、索引和查询》理论和实践并重,深入浅出地给出了海量信息数据处理的整套解决方案,包括压缩、索引和查询的方方面面。其最大的特色在于不仅仅满足信息检索理论学习的需要,更重要的是给出了实践中可能面对的各种问题及其解决方法。
《深入搜索引擎:海量信息的压缩、索引和查询》作为斯坦福大学信息检索课程的教材之一,具有一定的阅读难度,主要面向信息检索专业高年级本科生和研究生、搜索引擎业界的专业技术人员和从事海量数据处理相关专业的技术人员。
第1章 概览
1.1 文档数据库(DOCUMENT DATABASES)
1.2 压缩(COMPRESSION)
1.3 索引(INDEXES)
1.4 文档索引
1.5 MG海量文档管理系统
1.6 进一步阅读
第2章 文本压缩
2.1 模型
2.2 自适应模型
2.3 哈夫曼编码
范式哈夫曼编码
计算哈夫曼编码长度
总结
2.4 算术编码
算术编码是如何工作的
实现算术编码
保存累积计数
2.5 符号模型
部分匹配预测
块排序压缩
动态马尔科夫压缩
基于单字的压缩
2.6 字典模型
自适应字典编码器的LZ77系列
LZ77的Gzip变体
自适应字典编码器的LZ78系列
LZ78的LZW变体
2.7 同步
创造同步点
自同步编码
2.8 性能比较
压缩性能
压缩速度
其他性能方面的考虑
2.9 进一步阅读
第3章 索引
3.1 样本文档集合
3.2 倒排文件索引
3.3 压缩倒排文件
无参模型(Nonparameterized models)
全局贝努里模型
全局观测频率模型(Global observed frequency model)
局部贝努里模型(Local Bernoulli model)
有偏贝努里模型(Skewed Bernoulli model)
局部双曲模型(Local hyperbolic model)
局部观测频率模型(Local observed frequency model)
上下文相关压缩(Context-sensitive compression)
3.4 索引压缩方法的效果
3.5 签名文件和位图
签名文件
位片签名文件(Bitsliced signature files)
签名文件分析
位图
签名文件和位图的压缩
3.6 索引方法的比较
3.7 大小写折叠、词根化和停用词
大小写折叠
词根化
影响索引长度的因素
停用词(stop word)
3.8 进一步阅读
第4章 查询
4.1 访问字典的方法
访问数据结构
前端编码(Front coding)
最小完美哈希函数
完美哈希函数的设计
基于磁盘的字典存储
4.2 部分指定的查询术语
字符串暴力匹配(Brute-force string matching)
用n-gram索引
循环字典(Rotated lexicon)
4.3 布尔查询(BOOLEAN QUERY)
合取查询(conjunctive query)
术语处理顺序
随机访问和快速查找
分块倒排索引
非合取查询(Nonconjunctive query)
4.4 信息检索和排名
坐标匹配(Coordinate matching)
内积相似度
向量空间模型
4.5 检索效果评价
召回率和精确率
召回率-精确率曲线
TREC项目 208
万维网搜索(World Wide Web Searching)
其他有效性评价方法
4.6 余弦法实现
文档内频率
余弦值的计算方法
文档权重所需的内存
累加器内存
快速查询处理
按频率排序的索引
排序
4.7 交互式检索
相关性反馈
概率模型
4.8 分布式检索
4.9 进一步阅读
第5章 索引构造
第6章 图像压缩
第7章 文本图像
第8章 混合图文
第9章 系统实现
第10章 信息爆炸
附录A MG系统指南
附录B 新西兰图书馆
SOLIDWORKS零件与装配体教程-2016版 本书特色 《solidworks零件与装配体教程》(2016版)是根据ds solidworks公司发布的...
本书译自《TeachYourselfCin21Days》第6版,该书的前五版都登上了畅销书排行榜,是初学者学习C语言的经典之作。本版按最新的标准
《2015年MBA、MPA、MPAcc管理类联考逻辑及写作历年真题详解》内容简介:《2015年MBA、MPA、MPAcc管理类联考逻辑及写作历年真题详解
《海外征程2》内容简介:本书改编自华为前员工的真实经历,讲述了海外开拓者在海外拼搏的热血故事。拉美市场的战斗正式打响。4G网络
《高维信息几何与语音分析》共三个部分,第一部分是介绍语音分析的常见研究方法,第二部分是高维信息几何基础知识,它主要介绍了
《FPGA Verilog开发实战指南:基于Inter Cyclone IV(进阶篇)》内容简介:在《FPGA Verilog开发实战指南:基于Intel Cy...
大数据下并行知识约简与知识获取 本书特色 本书针对大数据的数据体量大、数据类型繁多、处理速度快、价值密度高等特点,以粒计算方法为理论基础,以经典粗糙集模型和区间...
《文明、现代化、价值投资与中国》内容简介:本书是喜马拉雅资本创始人、查理·芒格家族资产管理者李录的理论文集。全书包含上下两
《中国民法典释评·物权编(上下卷)》内容简介:制定民法典是我国立法领域的一件大事,也是建设中国特色社会主义法治国家的一项重
《数字信号处理学习指导与题解》是高两全等编著的《数字信号处理:原理、实现及应用》的配套用书。主要内容包括:(1)各章重点、难
《Web3.0与SemanticWeb编程》内容简介:语义Web的问世使网站开发领域变得焕然一新。您可以借助语义Web的强大功能,来构建可以运用
《万国衣冠拜冕旒:唐代卷》内容简介:《万国衣冠拜冕旒:唐代卷》全书通过对我大唐帝国时期大量文明遗产(包括各类工艺品、美术作
《狂人日记(赵延年插图本)》内容简介:本书是一部鲁迅小说选集,收录鲁迅代表性小说十六篇,出自《呐喊》和《彷徨》两部小说集,
KenAulettahaswrittenthe"AnnalsofCommunications"columnforTheNewYorkersince1992.He...
《3ds Max/VRay印象超写实建筑表现全模渲染技法》内容简介:本书从“真实”的角度出发,根据笔者多年积累的建筑效果图制作和教学经
机器视觉 本书特色 《机器视觉》从逆问题的角度出发,提出了一整套关于机器视觉的研究方法,其核心是:机器视觉应该基于对成像过程的深刻理解!作为作者在麻省理工学院(...
市面上介绍Java的书有很多,但专注于Java性能的并不多,能游刃有余地展示Java性能优化难点的更是凤毛麟角,本书即是其中之一。通
软件工程与实践 本书特色 《软件工程系列教材:软件工程与实践》是上海市高校教育高地暨特色专业建设项目配套教材,实用、新颖、操作性强。设有教学目标、新技术及典型应...
郝柏林,1934年6月生于北京市。1959年毕业于乌克兰国立哈尔科夫大学物理数学系。后在中国科学院物理研究所工作。1978年晋升为研究
《维多利亚时期英国中产阶级婚姻家庭生活研究》内容简介:本书是系统研究维多利亚时期英国中产阶级婚姻家庭生活的专门著作,运用时