本书以机器学习与计算统计为主题背景,专门讲述如何挖掘和分析Web上的数据和资源,如何分析用户体验、市场营销、个人品味等诸多信息,并得出有用的结论,通过复杂的算法来从Web网站获取、收集并分析用户的数据和反馈信息,以便创造新的用户价值和商业价值。全书内容翔实,包括协作过滤技术(实现关联产品推荐功能)、集群数据分析(在大规模数据集中发掘相似的数据子集)、搜索引擎核心技术(爬虫、索引、查询引擎、PageRank算法等)、搜索海量信息并进行分析统计得出结论的优化算法、贝叶斯过滤技术(垃圾邮件过滤、文本过滤)、用决策树技术实现预测和决策建模功能、社交网络的信息匹配技术、机器学习和人工智能应用等。
本书是Web开发者、架构师、应用工程师等的绝佳选择。
前言
第1章 集体智慧导言
什么是集体智慧
什么是机器学习
机器学习的局限
真实生活中的例子
学习型算法的其他用途
第2章 提供推荐
协作型过滤
搜集偏好
寻找相近的用户
推荐物品
匹配商品
构建一个基于del.icio.us的链接推荐系统
基于物品的过滤
使用MovieLens数据集
基于用户进行过滤还是基于物品进行过滤
练习
第3章 发现群组
监督学习和无监督学习
单词向量
分级聚类
绘制树状图
列聚类
K-均值聚类
针对偏好的聚类
以二维形式展现数据
有关聚类的其他事宜
练习
第4章 搜索与排名
搜索引擎的组成
一个简单的爬虫程序
建立索引
查询
基于内容的排名
利用外部回指链接
从点击行为中学习
练习
第5章 优化
组团旅游
描述题解
成本函数
随机搜索
爬山法
模拟退火算法
遗传算法
真实的航班搜索
涉及偏好的优化
网络可视化
其他可能的应用场合
练习
第6章 文档过滤
过滤垃圾信息
文档和单词
对分类器进行训练
计算概率
朴素分类器
费舍尔方法
将经过训练的分类器持久化
过滤博客订阅源
对特征检测的改进
使用Akismet
替代方法
练习
第7章 决策树建模
预测注册用户
引入决策树
对树进行训练
选择最合适的拆分方案
以递归方式构造树
决策树的显示
对新的观测数据进行分类
决策树的剪枝
处理缺失数据
处理数值型结果
对住房价格进行建模
对“热度”评价进行建模
什么时候使用决策树
练习
第8章 构建价格模型
构造一个样本数据集
k-最近邻算法
为近邻分配权重
交叉验证
不同类型的变量
对缩放结果进行优化
不对称分布
使用真实数据——eBay API
何时使用k-最近邻算法
练习
第9章 高阶分类:核方法与SVM
婚介数据集
数据中的难点
基本的线性分类
分类特征
对数据进行缩放处理
理解核方法
支持向量机
使用LIBSVM
基于Facebook的匹配
练习
第10章 寻找独立特征
搜集一组新闻
先前的方法
非负矩阵因式分解
结果呈现
利用股票市场的数据
练习
第11章 智能进化
什么是遗传编程
将程序以树形方式表示
构造初始种群
测试题解
对程序进行变异
交叉
构筑环境
一个简单的游戏
更多可能性
练习
第12章 算法总结
贝叶斯分类器
决策树分类器
神经网络
支持向量机
k-最近邻
聚类
多维缩放
非负矩阵因式分解
优化
附录A:第三方函数库
附录B:数学公式
索引
作者写作本书的灵感以及作者能提供的大量翔实的信息都直接来源于作者在UMTS论坛担任主席内5年的经历。在它最为活跃的阶段,这个国
《JavaScript入门经典(第4版)》对上一版本做了。全面更新,使JavaScript代码适用于最新版本的IE、Firefox和Safari浏览器。Java...
《北大清华人文课》内容简介:阅读经典,读者可以和无缘谋面的历史巨人或不相识的朋友进行精神的对话。本书搜集、整理了北大、清华
Thisbestsellingtextoncarryingoutresearchinrealworldsituationshasbeenthoroughlyre...
本书是关于ML程序设计的经典教材,详细介绍如何使用ML语言进行程序设计,并讲解函数式程序设计的基本原理。书中含有大量例子,涵
跟我学SEO从入门到精通 本书特色 本书从实战出发,少有理论,目的是让绝大多数seo初学者以及从业人员感觉有可操作性,不会有云里雾里的感觉。书中穿插介...
爱上Arduino-(第2版) 本书特色 arduino单片机的创始人massimobanzi著作亲切明白的观念解说,真实完整的实作步骤说明,融入*新技术的...
《成为被喜欢的品牌:如何获得消费者的非理性忠诚》内容简介:在物质丰富与信息冗余的时代,消费者的注意力严重分散,品牌的传播遭
《破坏之王》内容简介:网际空间的发展带来了机遇,也带来了威胁,ddos是其中最具破坏力的攻击之一。本书从不同角度对ddos进行了介
Swift细致入门与最佳实践 本书特色 本书基于稳定版本的swift 2.0进行讲解,详细介绍了开发swift应用程序的知识点。本书共分25章,循序渐进地...
《一分钟对视,读懂孩子的心》内容简介:本书通过一分钟面对面识人的原创技术和亲子对视的实际咨询案例,帮助3到10岁孩子的父母们提
《有效制订年度经营计划》内容简介:这是一本实用的工具书,阐述了一个全面、系统的年度经营计划制订的过程,以及企业如何利用年
DreamCase不是台灣一般認知的「Mook」,而是「MagBook」,以雜誌的概念、形式、內容來從事書的編輯,因此呈現方式可以更自由、更
●本书是作者多年来教学实践经验的总结,汇集了学员在学习课程或认证考试中遇到的概念、操作、应用等问题及解决方案●针对JavaSE
《精益企业之现场管理实战(图解版)》内容简介:随着工业4.0时代的到来,以及“中国制造2025”行动计划的不断推进,许多企业开始更
《最美中国故事(和谐篇)》内容简介:本书是“社会主义核心价值观系列连环画”中的小学十二种图书之一。小学十二种图书,每种围绕
现在是IT的时代,工作与生活都离不开IT。许多人都想了解软件原理,甚至编写一些简单的软件。通过《编程ING:人人都能学会程序设计
《职业规划下的高考志愿填报》内容简介:《职业规划下的高考志愿填报》是一本指导考生和家长如何正确填报高考志愿的书,本书分上篇
《先秦儒学核心范畴英译研究》内容简介:本书将思想史研究与中西文化哲学比较纳入先秦儒学核心文化范畴可译性研究。以先秦儒学思想
芬兰是全世界创意经济的先进国家,其极简的设计早已闻名全球,而且,在芬兰,设计不只是艺术家的事,全民都具有设计意识。这本书