本书以机器学习与计算统计为主题背景,专门讲述如何挖掘和分析Web上的数据和资源,如何分析用户体验、市场营销、个人品味等诸多信息,并得出有用的结论,通过复杂的算法来从Web网站获取、收集并分析用户的数据和反馈信息,以便创造新的用户价值和商业价值。全书内容翔实,包括协作过滤技术(实现关联产品推荐功能)、集群数据分析(在大规模数据集中发掘相似的数据子集)、搜索引擎核心技术(爬虫、索引、查询引擎、PageRank算法等)、搜索海量信息并进行分析统计得出结论的优化算法、贝叶斯过滤技术(垃圾邮件过滤、文本过滤)、用决策树技术实现预测和决策建模功能、社交网络的信息匹配技术、机器学习和人工智能应用等。
本书是Web开发者、架构师、应用工程师等的绝佳选择。
前言
第1章 集体智慧导言
什么是集体智慧
什么是机器学习
机器学习的局限
真实生活中的例子
学习型算法的其他用途
第2章 提供推荐
协作型过滤
搜集偏好
寻找相近的用户
推荐物品
匹配商品
构建一个基于del.icio.us的链接推荐系统
基于物品的过滤
使用MovieLens数据集
基于用户进行过滤还是基于物品进行过滤
练习
第3章 发现群组
监督学习和无监督学习
单词向量
分级聚类
绘制树状图
列聚类
K-均值聚类
针对偏好的聚类
以二维形式展现数据
有关聚类的其他事宜
练习
第4章 搜索与排名
搜索引擎的组成
一个简单的爬虫程序
建立索引
查询
基于内容的排名
利用外部回指链接
从点击行为中学习
练习
第5章 优化
组团旅游
描述题解
成本函数
随机搜索
爬山法
模拟退火算法
遗传算法
真实的航班搜索
涉及偏好的优化
网络可视化
其他可能的应用场合
练习
第6章 文档过滤
过滤垃圾信息
文档和单词
对分类器进行训练
计算概率
朴素分类器
费舍尔方法
将经过训练的分类器持久化
过滤博客订阅源
对特征检测的改进
使用Akismet
替代方法
练习
第7章 决策树建模
预测注册用户
引入决策树
对树进行训练
选择最合适的拆分方案
以递归方式构造树
决策树的显示
对新的观测数据进行分类
决策树的剪枝
处理缺失数据
处理数值型结果
对住房价格进行建模
对“热度”评价进行建模
什么时候使用决策树
练习
第8章 构建价格模型
构造一个样本数据集
k-最近邻算法
为近邻分配权重
交叉验证
不同类型的变量
对缩放结果进行优化
不对称分布
使用真实数据——eBay API
何时使用k-最近邻算法
练习
第9章 高阶分类:核方法与SVM
婚介数据集
数据中的难点
基本的线性分类
分类特征
对数据进行缩放处理
理解核方法
支持向量机
使用LIBSVM
基于Facebook的匹配
练习
第10章 寻找独立特征
搜集一组新闻
先前的方法
非负矩阵因式分解
结果呈现
利用股票市场的数据
练习
第11章 智能进化
什么是遗传编程
将程序以树形方式表示
构造初始种群
测试题解
对程序进行变异
交叉
构筑环境
一个简单的游戏
更多可能性
练习
第12章 算法总结
贝叶斯分类器
决策树分类器
神经网络
支持向量机
k-最近邻
聚类
多维缩放
非负矩阵因式分解
优化
附录A:第三方函数库
附录B:数学公式
索引
AUTODESK INVENTOR产品设计实例精解-2013版-(附2DVD) 本书特色 零件建模与设计是产品设计的基础和关键,要熟练掌握应用Inventor设...
《银行内部控制对信贷风险的影响研究》内容简介:本书依据信息不对称、委托代理、内部控制等理论,结合中国信贷市场制度背景,分析
《今天的我有点热爱生活》内容简介:作家韩梅梅,根据自己的一段远游经历,写下了这本饱含对生活、对自然与美充满热爱的作品。作者
FreeBSD操作系统设计与实现,ISBN:9787115136855,作者:(美)(Marshall,K.M.)著目录 第一部分综述第1章BSD系统的历史和目...
《瞻奥集:中古中国共同研究班十周年纪念论丛》内容简介:本稿为复旦中古研究班十年纪念论文集。基于共通的治学理念与研究领域,20
《温莎墓园日记》内容简介:“有人抑制不住惊叹,难道爱情真是,真是可能的吗……”木心散文小说系列之《温莎墓园日记》,经过年近
Thisgroundbreakingbookprovidesyouwiththeskillsandresourcesyouneedtobuildwebappli...
《摄影大讲堂》内容简介:本书是一本通俗易懂的摄影入门书,系统、全面、深入浅出地讲述了摄影的各个方面。从器材与原理到光圈、快
维维安·维斯特伍德她是国际时尚界的一个标志,从创作早年的朋克时装到成立自己的时装工作室,维斯特伍德的事业成功地跨越了三十
本书内容以实用为主,主要介绍电力系统光纤通信工程线路部分的设计,电力特种光缆的种类及实际应用,光缆的路径选择,杠塔上的空
《弓箫缘·石榴记》内容简介:《弓箫缘》初唐年间,筹建北庭都护府的四十万石粮草意外遭劫,陈澌奉李渊之命调查此案。塞外草原一晚
译者序遥想六年之前,交互设计在大陆刚刚兴起,UCD的概念开始慢慢被大家所认识。那时正和Ryana等同学建起UXStudy(油茶会)。市场
《二战尖端武器鉴赏指南(珍藏版)》内容简介:本书筛选了大量自一战结束至二战结束的划时代高尖端武器,以及当时各国主力、或者具
《经销商激励》内容简介:结合企业痛点介绍激励经销商常用的方法,包括:经销商激励概论、返利激励、政策激励、经销商销售竞赛、限
《基于浏览器的深度学习》内容简介:本书是Web开发和深度学习的跨界,主要介绍基于浏览器的深度学习技术,具体内容包括神经网络架构
《中信国学大典:六祖坛经》内容简介:中信国学大典(50册)是中信出版社引进自香港中华书局的一套深具国际视野、贴近当代社会的中
本书着重介绍现代密码学的加密思想及其实现方法,内容涉及数论、概率论、抽象代数、加密算法的思想及复杂度理论。本书介绍了密码
Iamstilluncertainwhichsurprisedmemore,thetelegramcallingmyattentiontotheadvertis...
这是一本关于操作系统基本原理的教科书,其最大特点就是从操作系统的分层概念出发,深入浅出地介绍了操作系统的基本概念和基本框
“只要一提到彼得·德鲁克的名字,在企业的丛林中就会有无数双耳朵竖起来听。”这里汇集了彼得·德鲁克和其他39位世界顶级大师的