本书以机器学习与计算统计为主题背景,专门讲述如何挖掘和分析Web上的数据和资源,如何分析用户体验、市场营销、个人品味等诸多信息,并得出有用的结论,通过复杂的算法来从Web网站获取、收集并分析用户的数据和反馈信息,以便创造新的用户价值和商业价值。全书内容翔实,包括协作过滤技术(实现关联产品推荐功能)、集群数据分析(在大规模数据集中发掘相似的数据子集)、搜索引擎核心技术(爬虫、索引、查询引擎、PageRank算法等)、搜索海量信息并进行分析统计得出结论的优化算法、贝叶斯过滤技术(垃圾邮件过滤、文本过滤)、用决策树技术实现预测和决策建模功能、社交网络的信息匹配技术、机器学习和人工智能应用等。
本书是Web开发者、架构师、应用工程师等的绝佳选择。
前言
第1章 集体智慧导言
什么是集体智慧
什么是机器学习
机器学习的局限
真实生活中的例子
学习型算法的其他用途
第2章 提供推荐
协作型过滤
搜集偏好
寻找相近的用户
推荐物品
匹配商品
构建一个基于del.icio.us的链接推荐系统
基于物品的过滤
使用MovieLens数据集
基于用户进行过滤还是基于物品进行过滤
练习
第3章 发现群组
监督学习和无监督学习
单词向量
分级聚类
绘制树状图
列聚类
K-均值聚类
针对偏好的聚类
以二维形式展现数据
有关聚类的其他事宜
练习
第4章 搜索与排名
搜索引擎的组成
一个简单的爬虫程序
建立索引
查询
基于内容的排名
利用外部回指链接
从点击行为中学习
练习
第5章 优化
组团旅游
描述题解
成本函数
随机搜索
爬山法
模拟退火算法
遗传算法
真实的航班搜索
涉及偏好的优化
网络可视化
其他可能的应用场合
练习
第6章 文档过滤
过滤垃圾信息
文档和单词
对分类器进行训练
计算概率
朴素分类器
费舍尔方法
将经过训练的分类器持久化
过滤博客订阅源
对特征检测的改进
使用Akismet
替代方法
练习
第7章 决策树建模
预测注册用户
引入决策树
对树进行训练
选择最合适的拆分方案
以递归方式构造树
决策树的显示
对新的观测数据进行分类
决策树的剪枝
处理缺失数据
处理数值型结果
对住房价格进行建模
对“热度”评价进行建模
什么时候使用决策树
练习
第8章 构建价格模型
构造一个样本数据集
k-最近邻算法
为近邻分配权重
交叉验证
不同类型的变量
对缩放结果进行优化
不对称分布
使用真实数据——eBay API
何时使用k-最近邻算法
练习
第9章 高阶分类:核方法与SVM
婚介数据集
数据中的难点
基本的线性分类
分类特征
对数据进行缩放处理
理解核方法
支持向量机
使用LIBSVM
基于Facebook的匹配
练习
第10章 寻找独立特征
搜集一组新闻
先前的方法
非负矩阵因式分解
结果呈现
利用股票市场的数据
练习
第11章 智能进化
什么是遗传编程
将程序以树形方式表示
构造初始种群
测试题解
对程序进行变异
交叉
构筑环境
一个简单的游戏
更多可能性
练习
第12章 算法总结
贝叶斯分类器
决策树分类器
神经网络
支持向量机
k-最近邻
聚类
多维缩放
非负矩阵因式分解
优化
附录A:第三方函数库
附录B:数学公式
索引
《超级网红:这么玩才赚钱》内容简介:“网红经济”日益发酵,成为资本市场“风口上的飞猪”。2016年,网红经济呈现爆发式增长,利
天正十五(1587)年,德川家康将治城搬到骏府,夫人朝日姬因母病被接回大坂。经数年征讨,丰臣秀吉遍服众大名,同十七年,发兵征
本书是最具知名度的Linux入门书《鸟哥的Linux私房菜基础学习篇》的最新版,全面而详细地介绍了Linux操作系统。全书分为5个部分:
本书提出了一个框架,用于分析程序设计语言的语法、操作和语义性质,该框架基于称为类型化λ演算的数学系统。λ演算的主要特色是
全国专业技术人员计算机应用能力考试考前冲刺POWERPOINT2003中文演示文稿 本书特色 紧扣考纲,瞄准考点:充分解读考纲,考点归纳精讲,明确重点难点试题详...
"HackosandRedishwiselyofferusthethreethingswemostneedaboutuserandtaskanalysis:pr...
《区块链技术指南》内容简介:VMware中国研发中心云原生应用首席架构师,西蒙弗雷泽大学计算机科学硕士,多年软件全栈开发经验,Ha
本书是著名作者Tanenbaum关于分布式系统的最新力作,是分布式系统的权威教材。本书分成了两大部分。第2~9章讨论的是分布式系统的
《R语言游戏数据分析与挖掘》内容简介:随着大数据的概念越来越流行,越来越多的企业开始重视数据,期待从数据中寻找有价值的结论,
《2013高技术发展报告》是中国科学院面向公众、面向决策人员的系列年度报告——《高技术发展报告》的第十四本。全书在综述2012年
《家装设计速通指南·色彩搭配详解》内容简介:色彩搭配是家装设计的重要环节。本书以基本色彩理论为基础,深入浅出地阐述了色彩对
《Spring Batch批处理框架》内容简介:本书全面、系统地介绍了批处理框架Spring Batch,通过详尽的实战示例向读者展示了Spring Bat
《汉文与东亚世界》内容简介:过去,尽管语言不同,东亚各国的商贾使节,一言不发,仅凭一纸一笔,亦可通过汉文“笔谈”,传情达意
ProductDescriptionDesigningInteractiveSystems:People,Activities,Contexts,Technol...
《超级IP运营攻略》内容简介:本书分为战略篇、产业篇、运营篇、营销篇和网红篇五大部分,对IP孵化、版权分销、品牌建设、营销推广
AndyOramAndyOram是OReillyMedia的编辑。他从1992年开始就在这家公司工作,Andy目前主要关注自由软件和开源技术。他在OReilly...
WilliamStallings为读者提供了一本关千密码编码学与网络安全的最优秀书籍。更新的第四版反映了该领域的最新发展趋势与进展,详尽
《Python安全攻防》内容简介:随着近几年互联网的发展,Python在各行各业发挥着举足轻重的作用。除应用在科学计算、大数据处理等人
《信号与系统》共分十章,内容包括:信号的函数表示与系统分析方法,连续系统时域分析,连续信号傅里叶分析,连续系统频域分析,
HCNP路由交换实验指南 修订版 本书特色 本书基于eNSP搭建企业网络真实场景,给出大量的配置实例,将真实场景与配置实例紧密结合,使读者能够快捷、直观、深刻地...