本书以机器学习与计算统计为主题背景,专门讲述如何挖掘和分析Web上的数据和资源,如何分析用户体验、市场营销、个人品味等诸多信息,并得出有用的结论,通过复杂的算法来从Web网站获取、收集并分析用户的数据和反馈信息,以便创造新的用户价值和商业价值。全书内容翔实,包括协作过滤技术(实现关联产品推荐功能)、集群数据分析(在大规模数据集中发掘相似的数据子集)、搜索引擎核心技术(爬虫、索引、查询引擎、PageRank算法等)、搜索海量信息并进行分析统计得出结论的优化算法、贝叶斯过滤技术(垃圾邮件过滤、文本过滤)、用决策树技术实现预测和决策建模功能、社交网络的信息匹配技术、机器学习和人工智能应用等。
本书是Web开发者、架构师、应用工程师等的绝佳选择。
前言
第1章 集体智慧导言
什么是集体智慧
什么是机器学习
机器学习的局限
真实生活中的例子
学习型算法的其他用途
第2章 提供推荐
协作型过滤
搜集偏好
寻找相近的用户
推荐物品
匹配商品
构建一个基于del.icio.us的链接推荐系统
基于物品的过滤
使用MovieLens数据集
基于用户进行过滤还是基于物品进行过滤
练习
第3章 发现群组
监督学习和无监督学习
单词向量
分级聚类
绘制树状图
列聚类
K-均值聚类
针对偏好的聚类
以二维形式展现数据
有关聚类的其他事宜
练习
第4章 搜索与排名
搜索引擎的组成
一个简单的爬虫程序
建立索引
查询
基于内容的排名
利用外部回指链接
从点击行为中学习
练习
第5章 优化
组团旅游
描述题解
成本函数
随机搜索
爬山法
模拟退火算法
遗传算法
真实的航班搜索
涉及偏好的优化
网络可视化
其他可能的应用场合
练习
第6章 文档过滤
过滤垃圾信息
文档和单词
对分类器进行训练
计算概率
朴素分类器
费舍尔方法
将经过训练的分类器持久化
过滤博客订阅源
对特征检测的改进
使用Akismet
替代方法
练习
第7章 决策树建模
预测注册用户
引入决策树
对树进行训练
选择最合适的拆分方案
以递归方式构造树
决策树的显示
对新的观测数据进行分类
决策树的剪枝
处理缺失数据
处理数值型结果
对住房价格进行建模
对“热度”评价进行建模
什么时候使用决策树
练习
第8章 构建价格模型
构造一个样本数据集
k-最近邻算法
为近邻分配权重
交叉验证
不同类型的变量
对缩放结果进行优化
不对称分布
使用真实数据——eBay API
何时使用k-最近邻算法
练习
第9章 高阶分类:核方法与SVM
婚介数据集
数据中的难点
基本的线性分类
分类特征
对数据进行缩放处理
理解核方法
支持向量机
使用LIBSVM
基于Facebook的匹配
练习
第10章 寻找独立特征
搜集一组新闻
先前的方法
非负矩阵因式分解
结果呈现
利用股票市场的数据
练习
第11章 智能进化
什么是遗传编程
将程序以树形方式表示
构造初始种群
测试题解
对程序进行变异
交叉
构筑环境
一个简单的游戏
更多可能性
练习
第12章 算法总结
贝叶斯分类器
决策树分类器
神经网络
支持向量机
k-最近邻
聚类
多维缩放
非负矩阵因式分解
优化
附录A:第三方函数库
附录B:数学公式
索引
精彩摘要:大凡讲到意大利设计,人们脸上都会流露出一抹轻松的微笑来。如果看到巴托里设计公司(BartoliDesing)的作品.那微笑就
POWERPOINT2007宝典 本书特色 《PowerPoint 2007宝典》内容丰富,涵盖面广,适合各级别的PowerPoint用户使用。POWERPOI...
《中医学教学医案选编》内容简介:本书是上海交通大学医学院2016年度课程、教材建设基金资助项目。以中医基础理论为核心,紧密结合
TakeyourExcelskillstothenextlevelwithVBAprogrammingNowthatyouvemasteredExcelbasi...
《海蒂育儿大百科:0~1岁(2023版)》内容简介:宝宝不会带着说明书来到这个世界,新手父母难免遇到各种问题。这时,一部专业可靠的
作为互联网发展的一个新阶段,Web2.0已经走入了我们的网络生活当中。本书集Web2.0的理念分析与具体设计于一体,希望帮助读者既能
网络英语-(中英双语) 本书特色 优秀的网上冲浪者没有固定的交流模式,如何在不同情景下选择*佳的交流方式呢 通过情景交流提升网上冲浪技能,通过案例分析提高各种在...
地理信息系统算法基础 内容简介 本书全面、系统地收集和整理了当前地理信息系统算法领域的相关资料,以地理信息系统设计与实现为线索,内容涉及地理空间数据的描述、检索...
《给设计以灵魂:当现代设计遇见传统工艺》的作者亲身实践“思考全球化、行动在地化”的设计概念,在西方的现代设计中加入日本传统
2天学会电脑组装.系统安装.日常维护与故障排除-(附赠光盘) 本书特色 本书完全从“读者自学”角度出发,结合课堂教学实录,力求...
《美国经典时装画技法》(基础篇)内容由浅显处入手,易学易懂,读后可基本掌握时装画技法要领,可操作性操,且画风具现代感。主要
《四库全书总目发微》内容简介:本书为作者近年发表《四库全书总目》领域论文之合集,分为“文献编”与“经学思想编”两部分。文献
电脑维修与技巧888问 内容简介 电脑已经成为人们生活中不可缺少的一部分。虽然大家都在使用电脑,但不是每个人都能够使用得得心应手,当电脑出故障时,许多人就束手无...
2008年过去了,有多少人会觉得念念不忘,又有多少人会想着尽早翻过日历?在经历过无数大喜大悲之后,谁可以只用一种表情概括这一
《图表解设备全过程规范管理手册》内容简介:本书以设备全过程规范管理为主题,对设备前期管理和使用期管理的实践操作进行了系统描
《数据虚拟化》内容简介:本书介绍了在当前大数据、人工智能的背景下,使用数据虚拟化技术实现多源异构数据集成的方法。本书共9章,
数据结构-C++版-(第四版)-(英文影印版) 本书特色 《数据结构:C++版(第4版)(影印版)》以C++语言作为实现语言,利用面向对象的方法,从规格说明出发...
《ECharts数据可视化:入门、实战与进阶》内容简介:这是一部ECharts的实战手册,内容系统而全面,由浅入深,能带领读者快速从新人
《卓有成效的程序员》就是讲述如何在开发软件的过程中变得更加高效。同时,《卓有成效的程序员》的讲述将会跨语言和操作系统:很
朱宏微软(中国)用户体验布道师新浪微博@MLikeasong负责大中华地区微软设计风格的普及、设计团体交流合作、基于Windows8和Windo