本书以机器学习与计算统计为主题背景,专门讲述如何挖掘和分析Web上的数据和资源,如何分析用户体验、市场营销、个人品味等诸多信息,并得出有用的结论,通过复杂的算法来从Web网站获取、收集并分析用户的数据和反馈信息,以便创造新的用户价值和商业价值。全书内容翔实,包括协作过滤技术(实现关联产品推荐功能)、集群数据分析(在大规模数据集中发掘相似的数据子集)、搜索引擎核心技术(爬虫、索引、查询引擎、PageRank算法等)、搜索海量信息并进行分析统计得出结论的优化算法、贝叶斯过滤技术(垃圾邮件过滤、文本过滤)、用决策树技术实现预测和决策建模功能、社交网络的信息匹配技术、机器学习和人工智能应用等。
本书是Web开发者、架构师、应用工程师等的绝佳选择。
前言
第1章 集体智慧导言
什么是集体智慧
什么是机器学习
机器学习的局限
真实生活中的例子
学习型算法的其他用途
第2章 提供推荐
协作型过滤
搜集偏好
寻找相近的用户
推荐物品
匹配商品
构建一个基于del.icio.us的链接推荐系统
基于物品的过滤
使用MovieLens数据集
基于用户进行过滤还是基于物品进行过滤
练习
第3章 发现群组
监督学习和无监督学习
单词向量
分级聚类
绘制树状图
列聚类
K-均值聚类
针对偏好的聚类
以二维形式展现数据
有关聚类的其他事宜
练习
第4章 搜索与排名
搜索引擎的组成
一个简单的爬虫程序
建立索引
查询
基于内容的排名
利用外部回指链接
从点击行为中学习
练习
第5章 优化
组团旅游
描述题解
成本函数
随机搜索
爬山法
模拟退火算法
遗传算法
真实的航班搜索
涉及偏好的优化
网络可视化
其他可能的应用场合
练习
第6章 文档过滤
过滤垃圾信息
文档和单词
对分类器进行训练
计算概率
朴素分类器
费舍尔方法
将经过训练的分类器持久化
过滤博客订阅源
对特征检测的改进
使用Akismet
替代方法
练习
第7章 决策树建模
预测注册用户
引入决策树
对树进行训练
选择最合适的拆分方案
以递归方式构造树
决策树的显示
对新的观测数据进行分类
决策树的剪枝
处理缺失数据
处理数值型结果
对住房价格进行建模
对“热度”评价进行建模
什么时候使用决策树
练习
第8章 构建价格模型
构造一个样本数据集
k-最近邻算法
为近邻分配权重
交叉验证
不同类型的变量
对缩放结果进行优化
不对称分布
使用真实数据——eBay API
何时使用k-最近邻算法
练习
第9章 高阶分类:核方法与SVM
婚介数据集
数据中的难点
基本的线性分类
分类特征
对数据进行缩放处理
理解核方法
支持向量机
使用LIBSVM
基于Facebook的匹配
练习
第10章 寻找独立特征
搜集一组新闻
先前的方法
非负矩阵因式分解
结果呈现
利用股票市场的数据
练习
第11章 智能进化
什么是遗传编程
将程序以树形方式表示
构造初始种群
测试题解
对程序进行变异
交叉
构筑环境
一个简单的游戏
更多可能性
练习
第12章 算法总结
贝叶斯分类器
决策树分类器
神经网络
支持向量机
k-最近邻
聚类
多维缩放
非负矩阵因式分解
优化
附录A:第三方函数库
附录B:数学公式
索引
《神探夏洛克·1》内容简介:《神探夏洛克》是近年上映的英剧逸品,主演“卷福”(本尼迪克特康伯巴奇)“花生”(马丁弗瑞曼)凭借
《JavaWeb入门经典》以初学者为核心,全面介绍了JavaWeb开发中常用的各种技术。内容排列上由浅入深,让读者循序渐进掌握编程技术
《生活在哪个朝代最郁闷》内容简介:历史并不重复,只是押韵而已。——马克·吐温 历史给我们的教训就是,人们从来都不知道汲取历史
电商、O2O、P2P、互联网金融等概念先是被疯狂追捧,在泡沫越吹越大之后便是哀鸿遍野。这本书正是解答泡沫破灭之后怎么办?自从以
谭浩强教授,我国著名计算机教育专家。1934年生,广东台山人。1985年清华大学自动控制系毕业。学生时代曾担任清华大学学生会主席
《纽埃》内容简介:纽埃位于南太平洋地区,是“波利尼西亚之礁”的一部分。纽埃全国由14个村庄构成,农业与旅游业是主要经济支柱。
《本森小姐的甲虫》内容简介:本森小姐,46岁,单身。她跟人类相处不好,却热爱钻研小小的、不起眼的、甚至会让人尖叫的甲虫。在她
《C算法(第2卷)(图算法)(第3版)(中文版)》所讨论的图算法,都是实际中解决图问题的最重要的已知方法。《C算法(第2卷)(图算法)(第
UGNX4.0三维建模基础教程 内容简介 EDS公司的Unigraphics NX(后文简称为UG NX)是世界*顶级的CAD/CAE/CAM产品研发解决方案,...
《养肝就是养命》内容简介:肝脏是人体的“巨型化工厂”,对人体气血水的输送、机体的排毒有着十分重要的作用,因此肝脏病变容易累
本书比较全面地介绍了网页设计应注意的相关问题,在网页设计基础方面着重讲解了网页框架、页面元素、色彩设计,分析了一些人们容
《大势研判》内容简介:当前中国经济最大的宏观背景是增速换挡、结构调整和改革转型。本书试图采用“转型宏观”分析框架,打通长期
《汉英科技翻译》是以原汁原味的英语原文作为译文这样的创新思维构思的,采用了从汉语语法和英语语法的结合上阐述翻译方法这样的
设计是什么?创意又是什么?设计师是什么?跨界设计和快乐设计又是什么?世界平面设计大师靳埭强记录下累积多年的创作经验,公开
一个会点石成金的神仙分别问三个人想要什么。第一个人说,我要很多很多的金子,然后神仙用手指往他面前的石头一点,石头就变成了
發明是百分之一的靈感加上百分之九十九的努力「創造突破性產品」中,作者以日常生活中已開發的商品為例,小從蔬果削皮力、手電筒
《深入核心的敏捷开发:ThoughtWorks五大关键实践》内容简介:本书介绍了ThoughtWorks是如何实践敏捷开发的,主题包括测试驱动开发
ProductDescriptionLearnhowtocreategorgeousandexpressiveimagerywiththeProcessingp...
软件工程-理论与实践(第三版 影印版) 本书特色 本套教学用书的特点:权威性——教育部高等教育司推荐、教育部高等学校信息科学与技术引进教材专家组遴选。系统性——...
TheWebisincreasinglyhappeninginrealtime.WithsitessuchasFacebookandFriendFeedlead...