本书主要框架是基于跨行业数据挖掘标准流程 (CRISP-DM) 这一知识发现 (KDD) 过程模型展开, 其内容主要包括互联网数据 (来自新浪微博、Facebook和Twitter) 的收集、准备、建模、评估和实施, 并利用R软件和Microsoft SQL Server软件在实务案例中进行文本挖掘。
《文本挖掘技术及其应用》包括四个部分。**部分包括两章,介绍常用文本挖掘技术,总结基本流程。第二部分共五章,在r软件上详细介绍了文本挖掘,包括r 软件的简介与安装,文本挖掘所需的基本r包,facebook、微博、twitter、网页等爬虫技术、数据预处理如断词、字词处理、语料库建立等,资料 分析如关联分析、集群分析、主成份分析和聚类分析。第三部分共两章,在ms sql sever上介绍如何实现文本挖掘,**章是数据预处理技术,包括怎么导入文本数据、建立字词与词向量、建立训练集和测试集,第二章在ms sql sever上实现常用的文本数据挖掘方法,并进行图表分析。第四部分为顾问公司和新闻网合作的案例。
设计与生存 内容简介 一种设计,无论原理上多么先进,如果缺乏量产的可能,对于企业或产业的意义恐怕很有局限。经过20年市场换技术的尝试,我们发现自己在技术上处于一...
本书将用于帮助指导Javaweb开发人员的日常任务,提供典型的web相关问题的快速解决方案。本书集中介绍了如何用Java初始化某些与we
瓦片颗粒和板型颗粒有什么区别?搭建墙壁时用堆叠法为什么不好?你怎样搭建乐高马赛克,怎样用不同的比例搭建?所有问题你都可以
从零开始——Photoshop中文版典型实例 内容简介 Adobe公司推出的Photoshop软件集图像处理和矢量图形绘制于一体,自推出之日起就深受广大平面设计...
ThesecondeditionofHaskell:TheCraftofFunctionalProgrammingisessentialreadingforbe...
《十八世纪的中国政治》内容简介:从康熙帝晚年,经雍正朝,直到乾隆帝去世,祖孙三代皇帝的统治跨越了整个18世纪。这100年间,中国
Web安全设计之道-.NET代码安全.界面漏洞防范与程序优化 本书特色 黑客入侵、挂马、网页篡改……网络系统安全的种种问题令人困扰,是否有方法能彻底解决这些安全...
OpenCL领域公认的权威著作,由OpenCL核心设计人员亲自执笔,不仅全面而深刻地解读了OpenCL规范和编程模型,而且通过大量案例和代
《供给侧改革:新供给简明读本》内容简介:“供给侧”在经济学领域并不是一个新鲜词汇,但一直未受到足够重视。中央领导首次提出“
《丝路朝圣》内容简介:本系列文章以《大唐西域记》为切入点,因为这是中印文化交流中最重要的一部典籍,当年以季羡林先生为主组织
《土摩托看世界》内容简介:《土摩托看世界》主要内容包括格瓦拉的阿根廷、谁的非洲、天堂的衰落——莫尔斯比港、热带雨林拯救站、
《SEM长尾搜索营销策略解密》内容简介:长尾并不是互联网的产物,其实它很早就产生了。只是随着互联网的普及和高速发展,我们越来越
GNUEmacsisthemostpopularandwidespreadoftheEmacsfamilyofeditors.Itisalsothemostpo...
《JavaEE6权威指南:基础篇(第4版)》是任务导向、示例驱动的JavaEE6基础教程,讲述如何开发企业应用,并作为第4版加入了很多新内容
Photoshop 图像处理高手秘笈138招-(附赠多媒体光盘1张) 本书特色 九天视觉主编的这本《Photoshop图像处理高手秘笈138招》根据多位资深平面...
《“一带一路”金融大战略》内容简介:《“一带一路”金融大战略》一书在“一带一路”这个大战略、大智慧、大工程背景下,从金融战
Excel 2007公式.函数与图表宝典-(含光盘一张) 内容简介 Excel2007是微软推出的*新电子表格处理软件,界面有了很大变化,在实用性方面有了很大提...
一本给初学者的HTML+CSS入门书籍作者简介 IanLloydistheauthororco-authorofanumberofwebdevelopmentb...
《你不知道的JavaScript(下卷)》内容简介:JavaScript这门语言简单易用,很容易上手,但其语言机制复杂微妙,即使是经验丰富的Ja
网络的限制边连通度与孤连通度 本书特色 图论是研究互连网络拓扑性能的有效方法,本书对于有关网络可靠性参数的问题提供了一个理论框架。内容包括网络的极大k限制边连通...