《深入搜索引擎:海量信息的压缩、索引和查询》是斯坦福大学信息检索和挖掘课程的首选教材之一,并已成为全球主要大学信息检索的主要教材。《深入搜索引擎:海量信息的压缩、索引和查询》理论和实践并重,深入浅出地给出了海量信息数据处理的整套解决方案,包括压缩、索引和查询的方方面面。其最大的特色在于不仅仅满足信息检索理论学习的需要,更重要的是给出了实践中可能面对的各种问题及其解决方法。
《深入搜索引擎:海量信息的压缩、索引和查询》作为斯坦福大学信息检索课程的教材之一,具有一定的阅读难度,主要面向信息检索专业高年级本科生和研究生、搜索引擎业界的专业技术人员和从事海量数据处理相关专业的技术人员。
第1章 概览
1.1 文档数据库(DOCUMENT DATABASES)
1.2 压缩(COMPRESSION)
1.3 索引(INDEXES)
1.4 文档索引
1.5 MG海量文档管理系统
1.6 进一步阅读
第2章 文本压缩
2.1 模型
2.2 自适应模型
2.3 哈夫曼编码
范式哈夫曼编码
计算哈夫曼编码长度
总结
2.4 算术编码
算术编码是如何工作的
实现算术编码
保存累积计数
2.5 符号模型
部分匹配预测
块排序压缩
动态马尔科夫压缩
基于单字的压缩
2.6 字典模型
自适应字典编码器的LZ77系列
LZ77的Gzip变体
自适应字典编码器的LZ78系列
LZ78的LZW变体
2.7 同步
创造同步点
自同步编码
2.8 性能比较
压缩性能
压缩速度
其他性能方面的考虑
2.9 进一步阅读
第3章 索引
3.1 样本文档集合
3.2 倒排文件索引
3.3 压缩倒排文件
无参模型(Nonparameterized models)
全局贝努里模型
全局观测频率模型(Global observed frequency model)
局部贝努里模型(Local Bernoulli model)
有偏贝努里模型(Skewed Bernoulli model)
局部双曲模型(Local hyperbolic model)
局部观测频率模型(Local observed frequency model)
上下文相关压缩(Context-sensitive compression)
3.4 索引压缩方法的效果
3.5 签名文件和位图
签名文件
位片签名文件(Bitsliced signature files)
签名文件分析
位图
签名文件和位图的压缩
3.6 索引方法的比较
3.7 大小写折叠、词根化和停用词
大小写折叠
词根化
影响索引长度的因素
停用词(stop word)
3.8 进一步阅读
第4章 查询
4.1 访问字典的方法
访问数据结构
前端编码(Front coding)
最小完美哈希函数
完美哈希函数的设计
基于磁盘的字典存储
4.2 部分指定的查询术语
字符串暴力匹配(Brute-force string matching)
用n-gram索引
循环字典(Rotated lexicon)
4.3 布尔查询(BOOLEAN QUERY)
合取查询(conjunctive query)
术语处理顺序
随机访问和快速查找
分块倒排索引
非合取查询(Nonconjunctive query)
4.4 信息检索和排名
坐标匹配(Coordinate matching)
内积相似度
向量空间模型
4.5 检索效果评价
召回率和精确率
召回率-精确率曲线
TREC项目 208
万维网搜索(World Wide Web Searching)
其他有效性评价方法
4.6 余弦法实现
文档内频率
余弦值的计算方法
文档权重所需的内存
累加器内存
快速查询处理
按频率排序的索引
排序
4.7 交互式检索
相关性反馈
概率模型
4.8 分布式检索
4.9 进一步阅读
第5章 索引构造
第6章 图像压缩
第7章 文本图像
第8章 混合图文
第9章 系统实现
第10章 信息爆炸
附录A MG系统指南
附录B 新西兰图书馆
《醉鲨》内容简介:★“荣获挪威最重要的文学奖——伯瑞格文学奖 (The Brage Prize),至今在挪威畅销不衰。★一部精彩绝伦的北欧探
《微课设计与制作一本通》内容简介:本书分为“微课视频的设计和制作”“微课视频制作软件”上下两篇,上篇介绍微课设计的基本概念
《深入浅出Spring Security》内容简介:Spring Security是Java企业级开发中常用的安全管理框架,也能完美支持OAuth2。同时,Sp...
《生活书店会议记录:1940—1945(精)》内容简介:本册收入了生活书店第六届理事会会议记录,第六届人事委员会会议记录,第六届理
《画笔之下:插画设计入门教程》内容简介:这是一本面向初学者和插画爱好者的教程书,书中将插画设计的思维、技法、理论穿插于六个
Gooduserinterfacedesignisntjustaboutaestheticsorusingthelatesttechnology.Designe...
本书对Photoshop中最重要的通道、混合模式、图层、蒙版做了深入剖析,并列举了大量相关实例,有助于读者更深入理解和把握Photosh
《无罪辩护:为自由和正义呐喊》内容简介:本书精选了徐昕无罪辩护的办案实录,有推动涉气枪案批复出台的赵春华案、刘大蔚案,影响
作者在充分消化历史、文化、风俗、地理、经济、军事、外交、科技等有关史实的前提下,从日本以情报立国这一国策入手,用汪洋自肆
Mostcompanieshavemassiveamountsofdataattheirdisposal,yetfailtoutilizeitinanymean...
中国互联网治理问题研究 本书特色 《中国互联网治理问题研究》:国际互联网治理的启示·中国互联网治理综述·网络文化环境治理·未成年人网络权益保护·虚拟社区管理·网...
《华侨华人文献学刊·第五辑》内容简介:《华侨华人文献学刊》是以华侨华人文献为研究对象的国际化、学术性专题学刊,内容包括华侨
《官方 Scratch 3.0 编程趣味卡:让孩子们爱上编程(全彩)》内容简介:Scratch是目前热门的儿童编程学习软件,自诞生之日起就受到
《说服力·工作型PPT该这样做(第3版)》内容简介:工作型PPT,唯“快”不破!作为日常工作中的PPT,不能为了追求完美设计而无限度
《想清楚 说明白》内容简介:本书主题与每个普通职场人日常工作生活都密切相关,属于绝大多数职场白领想要提升的重要素质之一。对于
2037年,絕大部分的農作物都被廠商生產的「蒸餾作物」所取代。林田,一位以標示農作物的遺傳因子,設計其外觀為業的基因樣式表設
《程序与民主》是意大利著名政治学家、法学家皮罗·克拉玛德雷(Pierocalamandrei)(1889-1956)讨论现代诉讼程序的著作。该书篇
《别让口才毁了你》内容简介:本书大致讲述口才是一门天入地的大学问,足以立身,足以成事。但也不必走向另一个极端,把口才能力看
Python在Unix和Linux系统管理中的应用 本书特色 《Python在Unix和Linux系统管理中的应用(影印版)》为开明出版社出版发行。Python...
jQueryUI1.6:TheUserInterfaceLibraryforjQuery,writtenbyDanWellman,isabookthatcont...