《深入搜索引擎:海量信息的压缩、索引和查询》是斯坦福大学信息检索和挖掘课程的首选教材之一,并已成为全球主要大学信息检索的主要教材。《深入搜索引擎:海量信息的压缩、索引和查询》理论和实践并重,深入浅出地给出了海量信息数据处理的整套解决方案,包括压缩、索引和查询的方方面面。其最大的特色在于不仅仅满足信息检索理论学习的需要,更重要的是给出了实践中可能面对的各种问题及其解决方法。
《深入搜索引擎:海量信息的压缩、索引和查询》作为斯坦福大学信息检索课程的教材之一,具有一定的阅读难度,主要面向信息检索专业高年级本科生和研究生、搜索引擎业界的专业技术人员和从事海量数据处理相关专业的技术人员。
第1章 概览
1.1 文档数据库(DOCUMENT DATABASES)
1.2 压缩(COMPRESSION)
1.3 索引(INDEXES)
1.4 文档索引
1.5 MG海量文档管理系统
1.6 进一步阅读
第2章 文本压缩
2.1 模型
2.2 自适应模型
2.3 哈夫曼编码
范式哈夫曼编码
计算哈夫曼编码长度
总结
2.4 算术编码
算术编码是如何工作的
实现算术编码
保存累积计数
2.5 符号模型
部分匹配预测
块排序压缩
动态马尔科夫压缩
基于单字的压缩
2.6 字典模型
自适应字典编码器的LZ77系列
LZ77的Gzip变体
自适应字典编码器的LZ78系列
LZ78的LZW变体
2.7 同步
创造同步点
自同步编码
2.8 性能比较
压缩性能
压缩速度
其他性能方面的考虑
2.9 进一步阅读
第3章 索引
3.1 样本文档集合
3.2 倒排文件索引
3.3 压缩倒排文件
无参模型(Nonparameterized models)
全局贝努里模型
全局观测频率模型(Global observed frequency model)
局部贝努里模型(Local Bernoulli model)
有偏贝努里模型(Skewed Bernoulli model)
局部双曲模型(Local hyperbolic model)
局部观测频率模型(Local observed frequency model)
上下文相关压缩(Context-sensitive compression)
3.4 索引压缩方法的效果
3.5 签名文件和位图
签名文件
位片签名文件(Bitsliced signature files)
签名文件分析
位图
签名文件和位图的压缩
3.6 索引方法的比较
3.7 大小写折叠、词根化和停用词
大小写折叠
词根化
影响索引长度的因素
停用词(stop word)
3.8 进一步阅读
第4章 查询
4.1 访问字典的方法
访问数据结构
前端编码(Front coding)
最小完美哈希函数
完美哈希函数的设计
基于磁盘的字典存储
4.2 部分指定的查询术语
字符串暴力匹配(Brute-force string matching)
用n-gram索引
循环字典(Rotated lexicon)
4.3 布尔查询(BOOLEAN QUERY)
合取查询(conjunctive query)
术语处理顺序
随机访问和快速查找
分块倒排索引
非合取查询(Nonconjunctive query)
4.4 信息检索和排名
坐标匹配(Coordinate matching)
内积相似度
向量空间模型
4.5 检索效果评价
召回率和精确率
召回率-精确率曲线
TREC项目 208
万维网搜索(World Wide Web Searching)
其他有效性评价方法
4.6 余弦法实现
文档内频率
余弦值的计算方法
文档权重所需的内存
累加器内存
快速查询处理
按频率排序的索引
排序
4.7 交互式检索
相关性反馈
概率模型
4.8 分布式检索
4.9 进一步阅读
第5章 索引构造
第6章 图像压缩
第7章 文本图像
第8章 混合图文
第9章 系统实现
第10章 信息爆炸
附录A MG系统指南
附录B 新西兰图书馆
C语言程序设计基础教程 内容简介 本书内容包括:C语言基本知识、数据类型、运算符与表达式、语句和程序结构、数组、编译预处理、函数、指针、结构体和共用体、文件。C...
《中国布衣(精编本)》内容简介:中国民间社会,有一种布衣精神。它指的是那些特立独行于帝阙与儒林之外者,无名有品,无位有尊。
MembersoftheHarvardNegotiationProject--whichbroughtyouthemega-bestsellerGettingt...
《墙垣边的人类》内容简介:建筑说到底是一种文化,是构成人类文明的一个重要组成部分。本书熔建筑艺术、文化学、史学、哲学和心理
《C++程序设计(第3版)》内容简介:本书以介绍C++语言的基本知识为主,旨在帮助读者建立面向对象程序设计的编程思想,主要内容包括
本书以IEEE802系列标准为主介绍局域网与城域网的相关技术,涉及lOMbps以太网、快速以太网、千兆位以太网、万兆位以太网、交换式以
《世纪大讲堂:科技卷》主要内容:著名讲坛,权威学者,民众话题,框架严密,百家争鸣!这里是自由的、思想的论坛;这里是思想的盛
本书是理论计算机科学方面的优秀教材,主要介绍形式语言、自动机、可计算性和相关内容。本书特别注意定义、定理的准确性和严格性
《闭上眼睛才能看清自己》内容简介:慈悲是一种爱,对家人、对朋友、对同事、对尘世间一草一木的爱。本书源于贤宗法师的人生体悟、
《大数据基础与应用》内容简介:本书共分为12章,第1章介绍了大数据产生的背景、大数据的结构与特征、大数据相关概念、大数据可视化
《一念光明:写给中国人的抑郁自救指南》内容简介:本书是实战派心理咨询专家张久祥教授35年临床心理咨询经验的精华总结,每一条建
{BookDescription}CutascenefromtheUSANetworktelevisionseriesMonk,createapromoforS...
《郭敬明,不为所动》内容简介:郭敬明说,“我身上的时间是凝固的状态,我面前的年轻人永远都是17岁”。从身高外貌到抄袭拜金,十
《从0到1:数据分析师养成宝典》内容简介:随着互联网技术的普及,数据产生的速度加快,数据规模越来越庞大,企业对数据分析师的需
”餐巾纸系列“全面来袭!全系列3本24开本双色彩图精致诠释,传授视觉化思考秘笈,让好玩的画图化繁为简、解决一切商业难题!★编
时变网络中国邮路问题研究 本书特色 随着信息技术的发展,不同学科领域对网络中的时间约束和时变特性日益关注,于是能够充分反映时间特性的时变网络优化应运而生。时变网...
《视觉链》内容简介:互联网行业是一个发展非常快的行业,也是一个充满创新的行业,技术发展快,商业模式层出不穷,用户的需求也在
GetReal-WorldInsightfromExperiencedProfessionalsintheOpenGLCommunityWithOpenGL,O...
《特种作战装备》内容简介:本书主要介绍各国特种作战单位使用的各式装备,包括主战武器、自卫武器、特种作战车辆、特种作战飞机、
计算机应用基础(2007版) 本书特色 本书为北京市高等教育自学考试“计算机应用基础”课程的考试指定用书。该书强调其文化性、科学性、基础性和实用性,着重培养学生...