本书以机器学习与计算统计为主题背景,专门讲述如何挖掘和分析Web上的数据和资源,如何分析用户体验、市场营销、个人品味等诸多信息,并得出有用的结论,通过复杂的算法来从Web网站获取、收集并分析用户的数据和反馈信息,以便创造新的用户价值和商业价值。全书内容翔实,包括协作过滤技术(实现关联产品推荐功能)、集群数据分析(在大规模数据集中发掘相似的数据子集)、搜索引擎核心技术(爬虫、索引、查询引擎、PageRank算法等)、搜索海量信息并进行分析统计得出结论的优化算法、贝叶斯过滤技术(垃圾邮件过滤、文本过滤)、用决策树技术实现预测和决策建模功能、社交网络的信息匹配技术、机器学习和人工智能应用等。
本书是Web开发者、架构师、应用工程师等的绝佳选择。
前言
第1章 集体智慧导言
什么是集体智慧
什么是机器学习
机器学习的局限
真实生活中的例子
学习型算法的其他用途
第2章 提供推荐
协作型过滤
搜集偏好
寻找相近的用户
推荐物品
匹配商品
构建一个基于del.icio.us的链接推荐系统
基于物品的过滤
使用MovieLens数据集
基于用户进行过滤还是基于物品进行过滤
练习
第3章 发现群组
监督学习和无监督学习
单词向量
分级聚类
绘制树状图
列聚类
K-均值聚类
针对偏好的聚类
以二维形式展现数据
有关聚类的其他事宜
练习
第4章 搜索与排名
搜索引擎的组成
一个简单的爬虫程序
建立索引
查询
基于内容的排名
利用外部回指链接
从点击行为中学习
练习
第5章 优化
组团旅游
描述题解
成本函数
随机搜索
爬山法
模拟退火算法
遗传算法
真实的航班搜索
涉及偏好的优化
网络可视化
其他可能的应用场合
练习
第6章 文档过滤
过滤垃圾信息
文档和单词
对分类器进行训练
计算概率
朴素分类器
费舍尔方法
将经过训练的分类器持久化
过滤博客订阅源
对特征检测的改进
使用Akismet
替代方法
练习
第7章 决策树建模
预测注册用户
引入决策树
对树进行训练
选择最合适的拆分方案
以递归方式构造树
决策树的显示
对新的观测数据进行分类
决策树的剪枝
处理缺失数据
处理数值型结果
对住房价格进行建模
对“热度”评价进行建模
什么时候使用决策树
练习
第8章 构建价格模型
构造一个样本数据集
k-最近邻算法
为近邻分配权重
交叉验证
不同类型的变量
对缩放结果进行优化
不对称分布
使用真实数据——eBay API
何时使用k-最近邻算法
练习
第9章 高阶分类:核方法与SVM
婚介数据集
数据中的难点
基本的线性分类
分类特征
对数据进行缩放处理
理解核方法
支持向量机
使用LIBSVM
基于Facebook的匹配
练习
第10章 寻找独立特征
搜集一组新闻
先前的方法
非负矩阵因式分解
结果呈现
利用股票市场的数据
练习
第11章 智能进化
什么是遗传编程
将程序以树形方式表示
构造初始种群
测试题解
对程序进行变异
交叉
构筑环境
一个简单的游戏
更多可能性
练习
第12章 算法总结
贝叶斯分类器
决策树分类器
神经网络
支持向量机
k-最近邻
聚类
多维缩放
非负矩阵因式分解
优化
附录A:第三方函数库
附录B:数学公式
索引
《我和LabVIEW:一个NI工程师的十年编程经验》是作者在学习和使用LabVIEW过程中的经验总结。书中由浅入深地对LabVIEW最常用的功能
《深入核心的敏捷开发:ThoughtWorks五大关键实践》内容简介:本书介绍了ThoughtWorks是如何实践敏捷开发的,主题包括测试驱动开发
面向智能制造的多机器人系统任务分配研究 本书特色 王友发*的《面向智能制造的多机器人系统任务分配研究》在结合机器人能力矩阵及任务角色需求的基础上,提出了一种通用...
计算机程序设计艺术第1卷第1册(双语版) 内容简介 关于算法分析的这多卷论著已经长期被公认为经典计算机科学的定义性描述。迄今已出版的完整的三卷已经组成了程序设计...
《大内高手解密高考志愿2018》内容简介:本书是一本指导考生和家长循序渐进地了解高考招生政策、志愿填报技巧的实用参考书。全书共
在《首饰的秘密》中,女人们向我们讲述她们的首饰——她们何时并如何得到,怎么佩戴,而它们又代表着什么——我们事实上在邀请她
本书从讲解什么是数据结构开始,延伸至高级数据结构和算法分析,强调数据结构和问题求解技术。本书的目的是从抽象思维和问题求解
机器人控制系统的设计与MATLAB仿真 本书特色 《机器人控制系统的设计与MATLAB仿真》各部分内容既相互联系又各自独立,读者可根据需要选择学习。《机器人控制...
本书站在一线设计师的视角,完整地展示了新媒体下的UI设计流程和细节技巧。通过主动沟通,素材的设计,草图的绘制,网页端、常用
《移动互联网时代文化产业商业模式》内容简介:这是一本面向大众,将国家社科基金重大项目"我国文化产业发展战略研究”之子课题"中
如果你希望通过并发编程来充分发挥多核处理器的强大功能,那么本书将为你提供所需的理论知识和实际经验。《并发的艺术》是为数不
《音乐评论的视域》内容简介:阐述音乐评论的概念与理论,并以田可文大约20多篇音乐评论文章来作为范例,来叙述音乐评论的路径。20
计算机审计数据采集与处理技术研究报告 内容简介 我国改革开放以来的经济发展和科技进步,推进了国家审计的信息步伐。金审工程的启动,使计算机审计从现场审计方式发展到...
KeyFeaturesTacklesdesignofproductsinthepost-Webworldwherecomputersnolongerhaveto...
《四君主》内容简介:英格兰国王亨利八世、法国国王弗朗索瓦一世、神圣罗马帝国皇帝查理五世和奥斯曼帝国苏丹苏莱曼大帝,这四位伟
视频动作识别研究 内容简介 人体动作识别具有非常广泛的应用,但是由于不同人在不同的场景下做同一类动作表现出的视觉差异非常大,所以动作识别研究具有非常大的挑战。《...
《机器学习编程》内容简介:使用监督学习从头构建一个图像识别应用程序。用线性回归预测未来。深入研究梯度下降,这是一种驱动大部
《神经网络设计与实现》内容简介:本书是一本神经网络实践进阶指南,适合对AI和深度学习感兴趣并且想进一步提高技能的读者阅读。本
ErnestW.Adams是一名美国游戏设计顾问,现定居于英国。除顾问工作外,他还开办游戏设计研讨班,并在各种会议和大学中发表演讲,广
《设计思维:整合创新、用户体验与品牌价值》是由30位行业专家共同撰写而成的,主要分三部分:为创新、品牌建设而做的设计,一种新