资深软件开发专家、架构师撰写,系统且深入阐释ElasticSearch涉及的工具、方法、原则和实践,深入剖析ElasticSearch应用过程中遇到的各个层面的问题,涉及分布式索引机制、系统监控及性能优化、用户体验改善、Java API应用,以及自定义插件开发等,能为工程师与架构师快速提高ElasticSearch水平提供有效指导。
本书共9章,第1章介绍Apache Lucene的工作方式、ElasticSearch的基本概念以及ElasticSearch的工作机制;第2章描述Lucene评分机制、如何进行查询重写,以及ElasticSearch的批处理API和如何使用过滤器来优化查询;第3章描述如何修改Lucene评分,如何使用不同的倒排索引格式来改变索引字段的结构;第4章阐述如何选择恰当的索引分片、路由工作机制、索引分片机制;第5章介绍如何为具体应用选择正确的目录实现,同时阐述发现、网关、恢复模块及其配置方式,以及调优ElasticSearch的缓存机制;第6章介绍JVM垃圾收集的工作原理、重要性以及如何调优;第7章介绍帮助修正查询中的拼写错误以及构建高效的自动完成机制——查询建议,还展示如何通过使用不同查询类型和ElasticSearch的其他功能来提高查询相关性;第8章重点阐释ElasticSearch的JAVA API;第9章通过演示如何开发你自己的河流和语言处理插件来介绍ElasticSearch的插件开发。
译者序
前言
致谢
作者简介
评审者简介
第1章 ElasticSearch简介1
1.1 Apache Lucene简介1
1.1.1 熟悉Lucene2
1.1.2 Lucene的总体架构2
1.1.3 分析你的数据3
1.1.4 Lucene查询语言4
1.2 ElasticSearch简介6
1.2.1 ElasticSearch的基本概念7
1.2.2 ElasticSearch架构背后的关键概念8
1.2.3 ElasticSearch的工作流程9
1.3 小结13
第2章 查询DSL进阶14
2.1 Apache Lucene默认评分公式解释14
2.1.1 何时文档被匹配上15
2.1.2 TF/IDF评分公式15
2.1.3 ElasticSearch如何看评分16
2.2 查询改写17
2.2.1 前缀查询范例17
2.2.2 回顾Apache Lucene19
2.2.3 查询改写的属性20
2.3 二次评分21
2.3.1 理解二次评分21
2.3.2 范例数据21
2.3.3 查询22
2.3.4 二次评分查询的结构22
2.3.5 二次评分参数配置23
2.3.6 小结24
2.4 批量操作24
2.4.1 批量取24
2.4.2 批量查询26
2.5 排序27
2.5.1 基于多值字段的排序28
2.5.2 基于多值geo字段的排序28
2.5.3 基于嵌套对象的排序30
2.6 数据更新API31
2.6.1 简单字段更新31
2.6.2 使用脚本按条件更新32
2.6.3 使用更新 API创建或删除文档33
2.7 使用过滤器优化查询33
2.7.1 过滤器与缓存34
2.7.2 词项查找过滤器36
2.8 ElasticSearch切面机制中的过滤器与作用域40
2.8.1 范例数据40
2.8.2 切面计算和过滤41
2.8.3 过滤器作为查询的一部分42
2.8.4 切面过滤器44
2.8.5 全局作用域45
2.9 小结47
第3章 底层索引控制48
3.1 改变Apache Lucene的评分方式48
3.1.1 可用的相似度模型49
3.1.2 为每字段配置相似度模型49
3.2 相似度模型配置50
3.2.1 选择默认的相似度模型51
3.2.2 配置被选用的相似度模型52
3.3 使用编解码器53
3.3.1 简单使用范例53
3.3.2 工作原理解释54
3.3.3 可用的倒排表格式55
3.3.4 配置编解码器56
3.4 准实时、提交、更新及事务日志58
3.4.1 索引更新及更新提交59
3.4.2 事务日志60
3.4.3 准实时读取62
3.5 深入理解数据处理62
3.5.1 输入并不总是进行文本分析62
3.5.2 范例的使用65
3.5.3 索引期更换分词器67
3.5.4 搜索时更换分析器68
3.5.5 陷阱与默认分析68
3.6 控制索引合并68
3.6.1 选择正确的合并策略69
3.6.2 合并策略配置70
3.6.3 调度72
3.7 小结73
第4章 分布式索引架构74
4.1 选择合适的分片和副本数74
4.1.1 分片和过度分配75
4.1.2 一个过度分配的正面例子75
4.1.3 多分片与多索引76
4.1.4 副本76
4.2 路由76
4.2.1 分片和数据77
4.2.2 测试路由功能77
4.2.3 索引时使用路由80
4.2.4 别名83
4.2.5 多个路由值83
4.3 调整默认的分片分配行为84
4.3.1 分片分配器简介84
4.3.2 even_shard 分片分配器84
4.3.3 balanced分片分配器85
4.3.4 自定义分片分配器85
4.3.5 裁决者86
4.4 调整分片分配88
4.4.1 部署意识89
4.4.2 过滤91
4.4.3 运行时更新分配策略92
4.4.4 确定每个节点允许的总分片数93
4.4.5 更多的分片分配属性96
4.5 查询执行偏好97
4.6 应用我们的知识99
4.6.1 基本假定99
4.6.2 配置100
4.6.3 变化来了104
4.7 小结105
第5章 管理ElasticSearch106
5.1 选择正确的目录实现-存储模块106
5.2 发现模块的配置109
5.2.1 Zen发现109
5.2.2 亚马逊EC2发现111
5.2.3 本地网关114
5.2.4 恢复配置115
5.3 索引段统计116
5.3.1 segments API简介116
5.3.2 索引段信息的可视化118
5.4 理解ElasticSearch缓存119
5.4.1 过滤器缓存119
5.4.2 字段数据缓存121
5.4.3 清除缓存126
5.5 小结127
第6章 故障处理129
6.1 了解垃圾回收器129
6.1.1 Java内存130
6.1.2 处理垃圾回收问题131
6.1.3 在类UNIX系统中避免内存交换135
6.2 关于I/O调节136
6.2.1 控制IO节流136
6.2.2 配置136
6.3 用预热器提升查询速度138
6.3.1 为什么使用预热器138
6.3.2 操作预热器138
6.3.3 测试预热器141
6.4 热点线程144
6.4.1 澄清热点线程API的用法误区145
6.4.2 热点线程API的响应信息145
6.5 现实场景146
6.5.1 越来越差的性能146
6.5.2 混杂的环境和负载不平衡148
6.5.3 我的服务器出故障了149
6.6 小结150
第7章 改善用户搜索体验151
7.1 改正用户拼写错误151
7.1.1 测试数据152
7.1.2 深入技术细节152
7.1.3 completion suggester168
7.2 改善查询相关性172
7.2.1 数据172
7.2.2 改善相关性的探索之旅174
7.3 小结188
第8章 ElasticSearch Java API189
8.1 ElasticSearch Java API简介189
8.2 代码190
8.3 连接到集群191
8.3.1 成为ElasticSearch节点191
8.3.2 使用传输机连接方式192
8.3.3 选择合适的连接方式193
8.4 API剖析194
8.5 CRUD操作195
8.5.1 读取文档195
8.5.2 索引文档197
8.5.3 更新文档199
8.5.4 删除文档201
8.6 ElasticSearch查询203
8.6.1 准备查询请求203
8.6.2 构造查询203
8.6.3 分页206
8.6.4 排序207
8.6.5 过滤207
8.6.6 切面计算208
8.6.7 高亮209
8.6.8 查询建议209
8.6.9 计数210
8.6.10 滚动211
8.7 批量执行多个操作211
8.7.1 批量操作211
8.7.2 根据查询删除文档212
8.7.3 Multi GET212
8.7.4 Multi Search212
8.8 Percolator213
8.9 explain API214
8.10 构造JSON格式的查询和文档214
8.11 管理API216
8.11.1 集群管理API216
8.11.2 索引管理API219
8.12 小结226
第9章 开发ElasticSearch插件227
9.1 建立Apache Maven项目结构227
9.1.1 了解基本知识228
9.1.2 Maven Java项目的结构228
9.1.3 POM的理念228
9.1.4 运行构建过程229
9.1.5 引入Maven装配插件230
9.2 创建一个自定义river插件232
9.2.1 实现细节232
9.2.2 测试river238
9.3 创建自定义分析插件240
9.3.1 实现细节240
9.3.2 测试自定义分析插件247
9.4 小结249
《生活,如此措手不及》内容简介:本书收录了十对国际夫妻婚姻的故事括《漫漫岁月 不够人生》《生命的新纪元》《我们就是对方的始终
本书在尊重《设计模式》原意的同时,针对JavaScript语言特性全面介绍了更适合JavaScript程序员的了16个常用的设计模式,讲解了Ja
《政策不确定性、资源配置效率与企业高质量发展》内容简介:本书立足转轨经济背景,突破只见“政府”不见“官员”的研究困境,在政
《PythonUNIX和Linux系统管理指南》介绍了Python语言如何为管理uNIx和Linux服务器提供各种更加有效的任务处理方式。书中各章都提
本书将最有用的CSS技术汇总在一起,在介绍基本的CSS概念和最佳实践之后,讨论了核心的CSS技术,例如图像、链接、列表操纵、表单设
《人生的每日忠告》内容简介:既然你热爱生活,就要爱它的。当满天的繁星落定,远处的歌声清灵地绽放,你询问手中的红莲,哪一朵光
《鬼谷子的局·第4季:鏖战中原(全两册)》内容简介:战国时期,在一座叫清溪鬼谷的山上(今河南省鹤壁市),隐居着一位被尊称为“
《游踪行旅亦有趣》内容简介:《游踪行旅亦有趣》中的作品有叙事的、抒情的、释理的,文笔手法细腻,结构顺畅,条理清晰,内容丰富
《你无法改变世界时改变自己》内容简介:本书以“改变”为出发,分别从人生、生活、人际、处世、工作、得失等各个方面阐述了改变对
CX5872中文版photoshopCS5从入门到精通附光盘 内容简介 本书通过全新的写作手法和写作思路,使读者在阅读、学习本书之后能够快速掌握photosho...
地理空间元数据关联网络构建与应用 本书特色 在介绍相关研究背景与意义、国内外研究现状、相关理论方法的基础上,本书阐述面向关联数据的地理空间数据语义关联网络构建方...
这是湖南美术出版社出版的《德国新媒体插画教程》系列中的两本插画书之幻想类一本。由来自德国HAW的孟克塔塞尔教授引领,展示了他
《Excel 2003办公应用实战从入门到精通(超值版)》内容简介:《Excel 2003办公应用实战从入门到精通(超值版)》通过精选案例引导读
格局设计是住宅设计不可或缺的一部分,也是打造好房子的关键。大到空间格局的划分,如厨房、客厅、卧室等空间的功能分区,小到壁
《华侨中医药防控新冠肺炎手册》内容简介:鉴于新冠肺炎疫情在全球蔓延,丽水有40余万华侨旅居世界100多个国家和地区,本书旨在为广
人工智能知识讲座 本书特色 本书从人工智能的概念、发展历史、主要技术理论及应用等方面,全面讲解了人工智能的相关知识。全书分八章,分别介绍了人工智能的概念及相关术...
《数码摄影零基础入门教程》内容简介:本书从认识相机、摄影技术、摄影美学三大方面介绍了数码摄影的方方面面。全书对学习摄影所需
在线阅读本书Howmuchmoneyareyoulosingbecauseofpoorlandingpagedesign?Inthiscomprehensive...
本书是一部定位于以容易理解的语言,提供给未来用户关于电力线通信技术的书籍。该书以较为易懂的方式涵盖了核技术的备个方面,从
写这本书之前,作者一直在摸索一种最有利于入门者学编程的方法,并应用到教学当中。经过两年的教学实践,他确信他的方法是有效的