本书是猎兔搜索开发团队的软件研发和教学实践的经验汇总。本书总结搜索引擎相关理论与实际解决方案,并给出了java实现,其中利用了流行的开源项目lucene和solr,而且还包括原创的实现。
本书主要包括总体介绍部分、爬虫部分、自然语言处理部分、全文检索部分以及相关案例分析。爬虫部分介绍了网页遍历方法和如何实现增量抓取,并介绍了从网页等各种格式的文档中提取主要内容的方法。自然语言处理部分从统计机器学习的原理出发,包括了中文分词与词性标注的理论与实现及在搜索引擎中的应用等细节,同时对文档排重、文本分类、自动聚类、句法分析树、拼写检查等自然语言处理领域的经典问题进行了深入浅出的介绍,并总结了实现方法。在全文检索部分,结合lucene介绍了搜索引擎的原理与进展。用简单的例子介绍了lucene的*新应用方法,包括完整的搜索实现过程:从完成索引到搜索用户界面的实现。此外还进一步介绍了实现准实时搜索的方法,展示了solr的用法以及实现分布式搜索服务集群的方法。*后介绍了在地理信息系统领域和户外活动搜索领域的应用。
1、《解密搜索引擎技术实战:lucene & java精华版(第2版)》是畅销书的升级版,从实用的角度出发,全面介绍了搜索引擎相关技术。
2、作者罗刚对搜索引擎技术非常熟悉,本书是其软件研发和教学实践的经验汇总。
3、《解密搜索引擎技术实战:lucene & java精华版(第2版)》非常适合想全面了解搜索引擎技术及实现方法的读者阅读,亦可作为相关专业学生的参考用书。
罗刚,猎兔搜索创始人,带领猎兔搜索技术开发团队先后开发出猎兔中文分词系统、猎兔信息提取系统、猎兔智能垂直搜索系统以及网络信息监测系统等,实现互联网信息的采集、过滤、搜索和实时监测。曾编写出版《自己动手写搜索引擎》、《自己动手写网络爬虫》、《使用C#开发搜索引擎》,获得广泛好评。在北京和上海等地均有猎兔培训的学员。
《理智与情感》内容简介:人文社本版“奥斯丁文集”首次亮相 简·奥斯丁处女作,与《傲慢与偏见》堪称姐妹篇 简·奥斯丁在十九岁时
数据库系统简明教程 本书特色 《数据库系统简明教程》是由王珊所编著,高等教育出版社出版发行的。数据库系统简明教程 内容简介 本书系统地阐述了数据库系统的基础理论...
《诸子百家普及丛书(套装10册)》内容简介:本丛书以王志民教授主持承担的山东省齐文化传承创新示范区建设重大工程项目为基础。丛
《研发绩效管理手册(第2版)》内容简介:本书从中国企业目前的研发绩效管理现状入手,结合作者多年的实践经验,详细介绍了研发绩效
作为jQueryMobile的入门级读物,BradBroulik所著的《jQueryMobile快速入门》以示例方式讲解了jQueryMobile的基本知识和核...
《游戏经济:以社交媒体游戏促进业务增长》内容简介:社交媒体游戏以其富有曲折的故事情节、情感体验和互动性,令用户着迷,如果能
《工业软实力》内容简介:本书由工业和信息化部政策法规司组织国家工业信息安全发展研究中心、中国信息通信研究院、中国电子信息产
《新妈妈科学坐月子》内容简介:本书全面介绍新妈妈坐月子之基本常识、饮食调养、护理要点、疾病防范、产后运动、生活起居及新生宝
《德育鉴》内容简介:清华国学院导师梁启超为时人和后人所编的修身读本,帮助读者以凝聚的篇幅集中领略历代先哲的亲口传授。浙江大
数据科学是将数据转化为行动的艺术,是综合了统计学、计算机科学和领域知识的新兴学科。数据科学与很多传统学科的最大区别在于其
《PHP+MySQL程序设计实例讲座》以深入浅出的讲解引导您熟悉PHP的语法,针对文件访问、GD绘图与图片处理、表单、Cookie、Session、
《写给架构师的Linux实践》内容简介:本书首先概述Linux项目的设计方法,然后讲解在设计此类项目时,所要注重的核心理念,以及在用
《音乐漫游记:带着古典音乐去旅行》内容简介:每一首音乐作品,都是一幅鲜活的游历图,诉说了音乐家自己的生活故事;每一首音乐作
《短视频,你玩得起吗》内容简介:本书从专业角度教你零基础制作短视频。首先,让你从各个角度深度了解短视频,只有足够了解才能够
《东线:中央集团军群的覆灭》内容简介:《东线》系列丛书,由著名军事作家朱世巍先生撰写。它全面而详细地讲述了二战中苏德战争的
《不畏将来 不念过去2》内容简介:畅销两百万册作者十二升华之作。时隔6年十二用全新观点,告诉你如何从容面对恋爱、婚姻和原生家庭
与以前的网站建设相比,现在的网站建设变得更加细分化。设计师的作用不再仅仅是制作视觉效果突出的图像。而是应该以项目为中心考
MATLAB面向对象编程 本书特色 本书分为三部分。**部分介绍matlab面向对象编程基础知识,包括什么是类,类之间的基本关系,以及matlab提供的面向对象...
《西南联大文学社团研究(精)》内容简介:本书是中华书局2011年版《季节燃起的花朵——西南联大文学社团研究》一书的增订本,共约
内容简介:MongoDB是为处理大数据而生的一款面向文档的数据库,由10gen公司开发和维护。本书作者KyleBanker曾在该公司负责MongoD