本书以机器学习与计算统计为主题背景,专门讲述如何挖掘和分析Web上的数据和资源,如何分析用户体验、市场营销、个人品味等诸多信息,并得出有用的结论,通过复杂的算法来从Web网站获取、收集并分析用户的数据和反馈信息,以便创造新的用户价值和商业价值。全书内容翔实,包括协作过滤技术(实现关联产品推荐功能)、集群数据分析(在大规模数据集中发掘相似的数据子集)、搜索引擎核心技术(爬虫、索引、查询引擎、PageRank算法等)、搜索海量信息并进行分析统计得出结论的优化算法、贝叶斯过滤技术(垃圾邮件过滤、文本过滤)、用决策树技术实现预测和决策建模功能、社交网络的信息匹配技术、机器学习和人工智能应用等。
本书是Web开发者、架构师、应用工程师等的绝佳选择。
前言
第1章 集体智慧导言
什么是集体智慧
什么是机器学习
机器学习的局限
真实生活中的例子
学习型算法的其他用途
第2章 提供推荐
协作型过滤
搜集偏好
寻找相近的用户
推荐物品
匹配商品
构建一个基于del.icio.us的链接推荐系统
基于物品的过滤
使用MovieLens数据集
基于用户进行过滤还是基于物品进行过滤
练习
第3章 发现群组
监督学习和无监督学习
单词向量
分级聚类
绘制树状图
列聚类
K-均值聚类
针对偏好的聚类
以二维形式展现数据
有关聚类的其他事宜
练习
第4章 搜索与排名
搜索引擎的组成
一个简单的爬虫程序
建立索引
查询
基于内容的排名
利用外部回指链接
从点击行为中学习
练习
第5章 优化
组团旅游
描述题解
成本函数
随机搜索
爬山法
模拟退火算法
遗传算法
真实的航班搜索
涉及偏好的优化
网络可视化
其他可能的应用场合
练习
第6章 文档过滤
过滤垃圾信息
文档和单词
对分类器进行训练
计算概率
朴素分类器
费舍尔方法
将经过训练的分类器持久化
过滤博客订阅源
对特征检测的改进
使用Akismet
替代方法
练习
第7章 决策树建模
预测注册用户
引入决策树
对树进行训练
选择最合适的拆分方案
以递归方式构造树
决策树的显示
对新的观测数据进行分类
决策树的剪枝
处理缺失数据
处理数值型结果
对住房价格进行建模
对“热度”评价进行建模
什么时候使用决策树
练习
第8章 构建价格模型
构造一个样本数据集
k-最近邻算法
为近邻分配权重
交叉验证
不同类型的变量
对缩放结果进行优化
不对称分布
使用真实数据——eBay API
何时使用k-最近邻算法
练习
第9章 高阶分类:核方法与SVM
婚介数据集
数据中的难点
基本的线性分类
分类特征
对数据进行缩放处理
理解核方法
支持向量机
使用LIBSVM
基于Facebook的匹配
练习
第10章 寻找独立特征
搜集一组新闻
先前的方法
非负矩阵因式分解
结果呈现
利用股票市场的数据
练习
第11章 智能进化
什么是遗传编程
将程序以树形方式表示
构造初始种群
测试题解
对程序进行变异
交叉
构筑环境
一个简单的游戏
更多可能性
练习
第12章 算法总结
贝叶斯分类器
决策树分类器
神经网络
支持向量机
k-最近邻
聚类
多维缩放
非负矩阵因式分解
优化
附录A:第三方函数库
附录B:数学公式
索引
Evenasdataisturningtheworldupsidedown,thenextrevolutionistakingshape:realtimedat...
何马克(MarkHurst)是一位始终重视用户体验的创业者和作家,他始终关注技术创新给人们生活带来的变化和影响。1997年,还很少有人
网站运维工作,一向以内容繁杂、覆盖面广著称。《网站运维技术与实践》选取日常工作涉及的监测调优、日志分析、集群规划、自动化
假如,给你一间老房子,你要用它做什么?咖啡馆、民宿、饮食空间、小酒馆……在本书中,你或许可以寻找到答案。30个台湾老屋的再
Everyoneknowsthatapicturetellsathousandwords.Butwhatabouttheelementsthatmakeupap...
《墙垣边的人类》内容简介:建筑说到底是一种文化,是构成人类文明的一个重要组成部分。本书熔建筑艺术、文化学、史学、哲学和心理
《网民的狂欢:关于互联网弊端的反思》内容简介:在Web2.0的世界中,我们的世界观、我们的文化正在遭遇大批“业余者”的攻击。网络
高效能程序员的修炼 本书特色 jeff atwood于2004年创办codinghorror博客(http://www.codinghorror.com),记录...
《扶贫志》内容简介:本书为反映决战脱贫攻坚重大主题的长篇报告文学,作品以精准扶贫首倡地花垣县为切入点,辐射具有典型意义的扶
作为享誉全球的设计大师,原研哉将日本的生活美学和设计理念带给了全球的读者,我们也许看到过大师精彩的设计作品以及以他的理念
《许倬云说美国:一个不断变化的现代西方文明》内容简介:客居美国六十余载,华人史学大家许倬云分享自己的亲身经历,以历史学、社
《背影(2019)》内容简介:时光匆匆,背影长存 2019未删节新版 一九二八年开明书店初版散文集《背影》完整呈现 《背影》《荷塘月色
《中国人民大学中国法律发展报告2020》内容简介:本报告从法律规范体系、法治实施体系、法治监督体系、法治保障体系、党内法规体系
《深入解析SpringMVCgnWebFlow》是SpringMVC和WebFlow两个框架的权威指南,书中包括的技巧和提示可以让你从这个灵活的框架中汲取
具有典型日本美学气质的设计品牌無印良品,曾以辉煌的业绩缔造出“無印神话”,其简朴的理念和高质感的产品深得消费者之心。进入
《西安史话》内容简介:本书只是对西安厚重历史的故事呈现,举重若轻;只是对西安3100多年建城史和1100多年建都史的粗线勾勒,挂一
Thiseasy-to-use,fast-movingtutorialintroducesyoutofunctionalprogrammingwithHaske...
各位,下一個最好的投資機會,不在於股票、債券或房地產,而是原物料,也就是我們日常生活基本所需的大宗物資。聰明的投資人已經
《月背征途》内容简介:嫦娥五号凯旋!中国探月工程官方记录人类首次登陆月球背面全过程!致敬中国航天!官方近百张高清月背照片首
《Google改变生活》系统地介绍了Google公司推出的一系列与我们生活息息相关的软件和服务的使用方法,并精选目前网络上最实用、最