《深入搜索引擎:海量信息的压缩、索引和查询》是斯坦福大学信息检索和挖掘课程的首选教材之一,并已成为全球主要大学信息检索的主要教材。《深入搜索引擎:海量信息的压缩、索引和查询》理论和实践并重,深入浅出地给出了海量信息数据处理的整套解决方案,包括压缩、索引和查询的方方面面。其最大的特色在于不仅仅满足信息检索理论学习的需要,更重要的是给出了实践中可能面对的各种问题及其解决方法。
《深入搜索引擎:海量信息的压缩、索引和查询》作为斯坦福大学信息检索课程的教材之一,具有一定的阅读难度,主要面向信息检索专业高年级本科生和研究生、搜索引擎业界的专业技术人员和从事海量数据处理相关专业的技术人员。
第1章 概览
1.1 文档数据库(DOCUMENT DATABASES)
1.2 压缩(COMPRESSION)
1.3 索引(INDEXES)
1.4 文档索引
1.5 MG海量文档管理系统
1.6 进一步阅读
第2章 文本压缩
2.1 模型
2.2 自适应模型
2.3 哈夫曼编码
范式哈夫曼编码
计算哈夫曼编码长度
总结
2.4 算术编码
算术编码是如何工作的
实现算术编码
保存累积计数
2.5 符号模型
部分匹配预测
块排序压缩
动态马尔科夫压缩
基于单字的压缩
2.6 字典模型
自适应字典编码器的LZ77系列
LZ77的Gzip变体
自适应字典编码器的LZ78系列
LZ78的LZW变体
2.7 同步
创造同步点
自同步编码
2.8 性能比较
压缩性能
压缩速度
其他性能方面的考虑
2.9 进一步阅读
第3章 索引
3.1 样本文档集合
3.2 倒排文件索引
3.3 压缩倒排文件
无参模型(Nonparameterized models)
全局贝努里模型
全局观测频率模型(Global observed frequency model)
局部贝努里模型(Local Bernoulli model)
有偏贝努里模型(Skewed Bernoulli model)
局部双曲模型(Local hyperbolic model)
局部观测频率模型(Local observed frequency model)
上下文相关压缩(Context-sensitive compression)
3.4 索引压缩方法的效果
3.5 签名文件和位图
签名文件
位片签名文件(Bitsliced signature files)
签名文件分析
位图
签名文件和位图的压缩
3.6 索引方法的比较
3.7 大小写折叠、词根化和停用词
大小写折叠
词根化
影响索引长度的因素
停用词(stop word)
3.8 进一步阅读
第4章 查询
4.1 访问字典的方法
访问数据结构
前端编码(Front coding)
最小完美哈希函数
完美哈希函数的设计
基于磁盘的字典存储
4.2 部分指定的查询术语
字符串暴力匹配(Brute-force string matching)
用n-gram索引
循环字典(Rotated lexicon)
4.3 布尔查询(BOOLEAN QUERY)
合取查询(conjunctive query)
术语处理顺序
随机访问和快速查找
分块倒排索引
非合取查询(Nonconjunctive query)
4.4 信息检索和排名
坐标匹配(Coordinate matching)
内积相似度
向量空间模型
4.5 检索效果评价
召回率和精确率
召回率-精确率曲线
TREC项目 208
万维网搜索(World Wide Web Searching)
其他有效性评价方法
4.6 余弦法实现
文档内频率
余弦值的计算方法
文档权重所需的内存
累加器内存
快速查询处理
按频率排序的索引
排序
4.7 交互式检索
相关性反馈
概率模型
4.8 分布式检索
4.9 进一步阅读
第5章 索引构造
第6章 图像压缩
第7章 文本图像
第8章 混合图文
第9章 系统实现
第10章 信息爆炸
附录A MG系统指南
附录B 新西兰图书馆
《元好问诗选》内容简介:元好问,字遗山,金末元初著名文学家,七岁能诗,年十四,从郝晋卿学诗,二十岁成学,名闻京师。兴定五年
信息管理技术-全国计算机等级考试三级教程-2011年版 本书特色 本书根据教育部考试中心制定的《全国计算机等级考试三级信息管理技术考试大纲(2007年版)》的要...
《学习书法的十三个问题》内容简介:本书是近现代著名书法家启功先生对书法学习中常见问题的专题讲解,包括:迷信由于误解、字形结
《美丽的青春》内容简介:本书收集了抒情诗人黑塞的中短篇小说中最脍炙人口的五篇名作。《秋之旅》描写一个在流浪和怀念之间徘徊的
photoshop CS6从入门到精通(全彩版) 本书特色本书讲述了学习photoshop cs6所需的相关知识,主要包括认识photoshop cs6、使用p...
Dreamweaver8\Flash8\Fireworks8网页制作从入门到精通 本书特色 《Dreamweaver 8、Flash 8、Fireworks 8...
《自然计算:DNA、量子比特和智能机器的未来》介绍了16位致力于解决计算领域前沿问题的科学家,他们分别在科学、工程金融等领域从
《基于Kubernetes的DevOps实践:容器加速软件交付》内容简介:容器化被认为是实现DevOps的最佳方式。谷歌开发了Kubernetes,它有效
《JavaScript+Vue.js web开发案例教程(在线实训版)》内容简介:随着互联网技术的不断发展,JavaScript语言及其相关技术越来越受人
《作家榜名著:你一定爱读的中国近代史》内容简介:◆忠实原著:以民国二十七年艺文研究会的初始定版为底本,全新精校典藏。◆精美
《未来零售》内容简介:“新零售”概念提出至今,各家零售企业已触发了一系列迭代动作,而突如其来的疫情,更是给整个新零售行业按
精通UG NX5中文版-基础入门篇(附赠1CD.含4小时语音视频教学) 内容简介 全书共分14章,主要介绍了ug nx5的绘图命令、实体特征以及各项命令的操作与...
《世界航母大百科》内容简介:本书以时间为主线,对绝大部分航空母舰逐一进行了介绍,每型配以简明扼要的文字说明、线图、历史照片
《一生里的某一刻》内容简介:在荒原上种花,在痛楚上绽放欢笑。一边跌倒一边前行的张春关于爱与生命的勇气之书,李松蔚、陈海贤、
《Android程序开发范例宝典》内容简介:本书紧密围绕开发人员在开发过程中遇到的实际问题和开发中应该掌握的技术,全面介绍了应用A
《直播修炼手册》内容简介:《直播修炼手册:主播IP打造+营销运营+商业变现》是一本直播修炼宝典,从主播的IP打造到营销推广、整体
《从零开始学Python数据分析与挖掘》内容简介:本书以Python3版本作为数据分析与挖掘实战的应用工具,从Pyhton的基础语法开始,陆续
《TD-SCDMA无线网络设计与规划》从移动通信的基本知识入手,对TD-SCDMA系统的关键技术和网络特性做了介绍,重点阐述了如何对TD-S
本书包括:分子生物物理、生物膜及其物理性质、光生物物理、辐射生物物理、自由基生物学、生物电学与生物磁学、生物分子电子学、
《以市场为驱动——华为大客户营销实战演练》内容简介:大客户营销不同于普通营销,它要远远比普通营销复杂得多,需要企业有着对自