《深入搜索引擎:海量信息的压缩、索引和查询》是斯坦福大学信息检索和挖掘课程的首选教材之一,并已成为全球主要大学信息检索的主要教材。《深入搜索引擎:海量信息的压缩、索引和查询》理论和实践并重,深入浅出地给出了海量信息数据处理的整套解决方案,包括压缩、索引和查询的方方面面。其最大的特色在于不仅仅满足信息检索理论学习的需要,更重要的是给出了实践中可能面对的各种问题及其解决方法。
《深入搜索引擎:海量信息的压缩、索引和查询》作为斯坦福大学信息检索课程的教材之一,具有一定的阅读难度,主要面向信息检索专业高年级本科生和研究生、搜索引擎业界的专业技术人员和从事海量数据处理相关专业的技术人员。
第1章 概览
1.1 文档数据库(DOCUMENT DATABASES)
1.2 压缩(COMPRESSION)
1.3 索引(INDEXES)
1.4 文档索引
1.5 MG海量文档管理系统
1.6 进一步阅读
第2章 文本压缩
2.1 模型
2.2 自适应模型
2.3 哈夫曼编码
范式哈夫曼编码
计算哈夫曼编码长度
总结
2.4 算术编码
算术编码是如何工作的
实现算术编码
保存累积计数
2.5 符号模型
部分匹配预测
块排序压缩
动态马尔科夫压缩
基于单字的压缩
2.6 字典模型
自适应字典编码器的LZ77系列
LZ77的Gzip变体
自适应字典编码器的LZ78系列
LZ78的LZW变体
2.7 同步
创造同步点
自同步编码
2.8 性能比较
压缩性能
压缩速度
其他性能方面的考虑
2.9 进一步阅读
第3章 索引
3.1 样本文档集合
3.2 倒排文件索引
3.3 压缩倒排文件
无参模型(Nonparameterized models)
全局贝努里模型
全局观测频率模型(Global observed frequency model)
局部贝努里模型(Local Bernoulli model)
有偏贝努里模型(Skewed Bernoulli model)
局部双曲模型(Local hyperbolic model)
局部观测频率模型(Local observed frequency model)
上下文相关压缩(Context-sensitive compression)
3.4 索引压缩方法的效果
3.5 签名文件和位图
签名文件
位片签名文件(Bitsliced signature files)
签名文件分析
位图
签名文件和位图的压缩
3.6 索引方法的比较
3.7 大小写折叠、词根化和停用词
大小写折叠
词根化
影响索引长度的因素
停用词(stop word)
3.8 进一步阅读
第4章 查询
4.1 访问字典的方法
访问数据结构
前端编码(Front coding)
最小完美哈希函数
完美哈希函数的设计
基于磁盘的字典存储
4.2 部分指定的查询术语
字符串暴力匹配(Brute-force string matching)
用n-gram索引
循环字典(Rotated lexicon)
4.3 布尔查询(BOOLEAN QUERY)
合取查询(conjunctive query)
术语处理顺序
随机访问和快速查找
分块倒排索引
非合取查询(Nonconjunctive query)
4.4 信息检索和排名
坐标匹配(Coordinate matching)
内积相似度
向量空间模型
4.5 检索效果评价
召回率和精确率
召回率-精确率曲线
TREC项目 208
万维网搜索(World Wide Web Searching)
其他有效性评价方法
4.6 余弦法实现
文档内频率
余弦值的计算方法
文档权重所需的内存
累加器内存
快速查询处理
按频率排序的索引
排序
4.7 交互式检索
相关性反馈
概率模型
4.8 分布式检索
4.9 进一步阅读
第5章 索引构造
第6章 图像压缩
第7章 文本图像
第8章 混合图文
第9章 系统实现
第10章 信息爆炸
附录A MG系统指南
附录B 新西兰图书馆
无师自通AutoCAD 2014中文版机械设计-(附光盘) 本书特色 《无师自通AutoCAD 2014中文版机械设计》以AutoCAD 2014中文版为平台,...
《一个女孩的恐惧》内容简介:一个深夜,女孩手持双管猎枪,径直冲进森林,用枪口抵住一个人的额头,扣下扳机 人们常常说熊镇太不起
《Head First Go语言程序设计》内容简介:Go是为高性能网络和多处理而设计的,但与python和javascript一样,该语言易于阅读和使用。
《JavaWeb开发与实战》为您呈现的是“图书详解+多媒体视频+网站技术支持”三位一体式学习环境。图书详解:《JavaWeb开发与实战》
《短视频拍摄与制作(微课版)》内容简介:随着移动互联网的高速发展,短视频行业也发展迅猛,成为5亿多人的信息关注、分享和传播的
ThisisthesecondeditionofJohnZellesPythonProgramming,updatedforPython3.Thisbookis...
虚拟现实技术 本书特色 陈怀友、张天驰、张菁编著的《虚拟现实技术(中文版计算机科学与技术学科研究生系列教材)》对虚拟现实技术及应用进行详细的探讨,运用多个典型的...
锋利的jQuery.第2版 本书特色 《锋利的jQuery(第2版)》是《锋利的jQuery》全新升级版,例子采用全新的UI,代码更符合语义化;增加jQuery...
TwoScoopsofDjango:BestPracticesForDjango1.5ischock-fullofmaterialthatwillhelpyou...
流量的秘密: Google Analytics网站分析与优化技巧(第3版) 本书特色 系统介绍建立全方位网站指标体系的配置方法和*佳实施方案细致解读google...
多模式多尺度数据融合理论及其应用 内容简介 《多模式多尺度数据融合理论及其应用》首先针对一类不可重复测量的物理量,如时间、飞行器的位置、姿态及惯性参数等,建立多...
Everwonderwhysometypelooksmoreprofessional,moresophisticatedthanothertype?Theans...
《供给侧改革:新供给简明读本》内容简介:“供给侧”在经济学领域并不是一个新鲜词汇,但一直未受到足够重视。中央领导首次提出“
工业机器人与自控系统的集成应用 本书特色 本书从实用的角度出发,对工业机器人与PLC 控制系统的综合应用、触摸屏与机器人的联合应用、机器人与视觉系统的综合应用,...
《简单·丰盛·美好:面饭、蔬食配菜》内容简介:不远之前的博客时代,一个中断博士学业、改行入厨的台湾女生曾以“厨房里的人类学
《Web标准实践:Web设计的整体方法》以关注Web标准的方式来介绍Web前端设计和开发。通过阅读和练习帮助读者理解互联网基础知识、
《从展场到展览》内容简介:本书通过分析与解读以上海为代表性的艺术博物馆(上海博物馆、龙美术馆、K11艺术中心、上海当代艺术馆等
神经元(神经细胞)是构成神经系统的基石,对神经元各个方面的深入、彻底的理解对于我们从各个层次对神经系统进行分析都是十分必
本书整合了自1999年《Java虚拟机规范(第2版)》发布以来Java世界所出现的技术变化。另外,还修正了第2版中的许多错误,以及对目
《阿长与《山海经》》内容简介:本书从鲁迅作品中精选了适合青少年读者阅读的篇目,题材上偏向于作者年少的成长故事,对亲人、朋友