本书以机器学习与计算统计为主题背景,专门讲述如何挖掘和分析Web上的数据和资源,如何分析用户体验、市场营销、个人品味等诸多信息,并得出有用的结论,通过复杂的算法来从Web网站获取、收集并分析用户的数据和反馈信息,以便创造新的用户价值和商业价值。全书内容翔实,包括协作过滤技术(实现关联产品推荐功能)、集群数据分析(在大规模数据集中发掘相似的数据子集)、搜索引擎核心技术(爬虫、索引、查询引擎、PageRank算法等)、搜索海量信息并进行分析统计得出结论的优化算法、贝叶斯过滤技术(垃圾邮件过滤、文本过滤)、用决策树技术实现预测和决策建模功能、社交网络的信息匹配技术、机器学习和人工智能应用等。
本书是Web开发者、架构师、应用工程师等的绝佳选择。
前言
第1章 集体智慧导言
什么是集体智慧
什么是机器学习
机器学习的局限
真实生活中的例子
学习型算法的其他用途
第2章 提供推荐
协作型过滤
搜集偏好
寻找相近的用户
推荐物品
匹配商品
构建一个基于del.icio.us的链接推荐系统
基于物品的过滤
使用MovieLens数据集
基于用户进行过滤还是基于物品进行过滤
练习
第3章 发现群组
监督学习和无监督学习
单词向量
分级聚类
绘制树状图
列聚类
K-均值聚类
针对偏好的聚类
以二维形式展现数据
有关聚类的其他事宜
练习
第4章 搜索与排名
搜索引擎的组成
一个简单的爬虫程序
建立索引
查询
基于内容的排名
利用外部回指链接
从点击行为中学习
练习
第5章 优化
组团旅游
描述题解
成本函数
随机搜索
爬山法
模拟退火算法
遗传算法
真实的航班搜索
涉及偏好的优化
网络可视化
其他可能的应用场合
练习
第6章 文档过滤
过滤垃圾信息
文档和单词
对分类器进行训练
计算概率
朴素分类器
费舍尔方法
将经过训练的分类器持久化
过滤博客订阅源
对特征检测的改进
使用Akismet
替代方法
练习
第7章 决策树建模
预测注册用户
引入决策树
对树进行训练
选择最合适的拆分方案
以递归方式构造树
决策树的显示
对新的观测数据进行分类
决策树的剪枝
处理缺失数据
处理数值型结果
对住房价格进行建模
对“热度”评价进行建模
什么时候使用决策树
练习
第8章 构建价格模型
构造一个样本数据集
k-最近邻算法
为近邻分配权重
交叉验证
不同类型的变量
对缩放结果进行优化
不对称分布
使用真实数据——eBay API
何时使用k-最近邻算法
练习
第9章 高阶分类:核方法与SVM
婚介数据集
数据中的难点
基本的线性分类
分类特征
对数据进行缩放处理
理解核方法
支持向量机
使用LIBSVM
基于Facebook的匹配
练习
第10章 寻找独立特征
搜集一组新闻
先前的方法
非负矩阵因式分解
结果呈现
利用股票市场的数据
练习
第11章 智能进化
什么是遗传编程
将程序以树形方式表示
构造初始种群
测试题解
对程序进行变异
交叉
构筑环境
一个简单的游戏
更多可能性
练习
第12章 算法总结
贝叶斯分类器
决策树分类器
神经网络
支持向量机
k-最近邻
聚类
多维缩放
非负矩阵因式分解
优化
附录A:第三方函数库
附录B:数学公式
索引
《元宇宙超入门》内容简介:我们每天都在数字化生活之中。元宇宙,是数字化经济与生活的终极形态。元宇宙=实体世界数字世界。临界点
内容简介:现代无线通信技术一路高歌猛进,引领潮流,是发展最为迅速的技术领域。LTE是继3G之后的GSM演进方向,是4G蜂窝网络的全
《中信国学大典:礼记·孝经》内容简介:中信国学大典(50册)是中信出版社引进自香港中华书局的一套深具国际视野、贴近当代社会的
l大爆炸式颠覆是超越颠覆式创新的最新创新方式,是一种拥有巨大能量的创新,能在数月甚至数日之内撼动那些根基牢固的企业。其骇人
UserexperiencedesignisthedisciplineofcreatingausefulandusableWebsiteorapplicatio...
《开国领袖毛泽东》内容简介:《开国领袖毛泽东》真实地再现了共和国开国奠基特定历史环境中领袖人物毛泽东的心路历程、行为轨迹和
2008年过去了,有多少人会觉得念念不忘,又有多少人会想着尽早翻过日历?在经历过无数大喜大悲之后,谁可以只用一种表情概括这一
《论语全解》内容简介:《论语》是记录孔子及其部分弟子言行的语录体文集,是儒家早期重要的经典著作,也是反映我国优秀传统文化的
《生命的战争》内容简介:最早的那批可以自我复制并且随机突变的复杂有机分子,经历了怎样的发展,才最终造就了如今这个多姿多彩的
深入浅出AutoCAD.NET二次开发B4003 本书特色 《深入浅出AutoCAD.NET二次开发(附光盘)》由李冠亿编,全书结构合理、图文并茂、讲解生动、实...
我们生活在一个信息爆炸的时代,每一分、每一秒,我们都能从电视、报纸或互联网上获得信息。我们甚至来不及思索,就已经被这些信
《PPT炼成记》一书主要讲解的内容包括:了解真正的PPT是怎样的,懂得PPT的基本理念和操作规则,文字设计和编排,如何利用图片来突
《走进搜索引擎(第2版)》由搜索引擎开发研究领域三位年轻的博士生精心编写,作者们希望将自己对搜索引擎的理解和实际应用相结合,
《高情商养育》内容简介:0-6岁,黏人、打人、不好好吃饭、拖拖拉拉、不听话、爱发脾气等。6-12岁,不认真听讲、搞小动作、学习不积
《虚拟智能体理论与技术》内容简介:本书结合国内外虚拟现实技术的发展潮流,结合作者以往的研究基础,论述了建立智能体的理论、方
《旧石器技术:理论与实践》内容简介:本书详细介绍了法国学者于20世纪开创并发展起来的旧石器技术研究的理论和方法,并首次将其系
《企业扩张与融资》内容简介:本书从企业成长理论和企业扩张分析出发,分析和归纳了企业从初创到成熟这一过程的机理和特征,并按照
Theaimofthisbookistodiscussthefundamentalideaswhichliebehindthestatisticaltheory...
严肃游戏中个性化建模及认知机制研究 内容简介 本书以具有游戏特征但以非娱乐为目的的“严肃游戏”以及由此衍生的游戏式学习具备有效学习环境的关键特征, 能为学习者提...
《深度融合》内容简介:本书从互联网经济的深度融合角度出发,分别从势能聚焦、重度垂直、众包协作、情怀植入、爆品打造、深度连接