This hands-on guide demonstrates how the flexibility of the command line can help you become a more efficient and productive data scientist. You’ll learn how to combine small, yet powerful, command-line tools to quickly obtain, scrub, explore, and model your data.
To get you started—whether you’re on Windows, OS X, or Linux—author Jeroen Janssens introduces the Data Science Toolbox, an easy-to-install virtual environment packed with over 80 command-line tools.
Discover why the command line is an agile, scalable, and extensible technology. Even if you’re already comfortable processing data with, say, Python or R, you’ll greatly improve your data science workflow by also leveraging the power of the command line.
●Obtain data from websites, APIs, databases, and spreadsheets
●Perform scrub operations on plain text, CSV, HTML/XML, and JSON
●Explore data, compute descriptive statistics, and create visualizations
●Manage your data science workflow using Drake
●Create reusable tools from one-liners and existing Python or R code
●Parallelize and distribute data-intensive pipelines using GNU Parallel
●Model data with dimensionality reduction, clustering, regression, and classification algorithms
Chapter 1 Introduction
Overview
Data Science Is OSEMN
Intermezzo Chapters
What Is the Command Line?
Why Data Science at the Command Line?
A Real-World Use Case
Further Reading
Chapter 2 Getting Started
Overview
Setting Up Your Data Science Toolbox
Essential Concepts and Tools
Further Reading
Chapter 3 Obtaining Data
Overview
Copying Local Files to the Data Science Toolbox
Decompressing Files
Converting Microsoft Excel Spreadsheets
Querying Relational Databases
Downloading from the Internet
Calling Web APIs
Further Reading
Chapter 4 Creating Reusable Command-Line Tools
Overview
Converting One-Liners into Shell Scripts
Creating Command-Line Tools with Python and R
Further Reading
Chapter 5 Scrubbing Data
Overview
Common Scrub Operations for Plain Text
Working with CSV
Working with HTML/XML and JSON
Common Scrub Operations for CSV
Further Reading
Chapter 6 Managing Your Data Workflow
Overview
Introducing Drake
Installing Drake
Obtain Top Ebooks from Project Gutenberg
Every Workflow Starts with a Single Step
Well, That Depends
Rebuilding Specific Targets
Discussion
Further Reading
Chapter 7 Exploring Data
Overview
Inspecting Data and Its Properties
Computing Descriptive Statistics
Creating Visualizations
Further Reading
Chapter 8 Parallel Pipelines
Overview
Serial Processing
Parallel Processing
Distributed Processing
Discussion
Further Reading
Chapter 9 Modeling Data
Overview
More Wine, Please!
Dimensionality Reduction with Tapkee
Clustering with Weka
Regression with SciKit-Learn Laboratory
Classification with BigML
Further Reading
Chapter 10 Conclusion
Let’s Recap
Three Pieces of Advice
Where to Go from Here?
Getting in Touch
《跨海之战》内容简介:金门、海南和一江山三次跨海之战经历了一个相当复杂的过程。以三次战争为线索,体现国共双方在战略方针的较
数据库系统工程师2004至2011年试题分析与解答 本书特色 为帮助考生复习备考,在《数据库系统工程师2004至2011年试题分析与解答》一书中,全国计算机专业...
《企业私有云建设指南》内容简介:全书一共10章: 第1章总结性地介绍了云计算的参考架构、典型解决方案架构和涉及的关键技术。第2章
《物联网:万物数字化的利器》内容简介:这是一本介绍物联网生态的技术专著。全书从世界经济周期的分析开始,介绍了第六次“经济长
你必须知道的495个-C语言问题 本书特色 《你必须知道的495个c语言问题》以问答的形式组织内容,讨论了学习或使用c语言的过程中经常遇到的一些问题。书中列出了...
《区块链技术进阶指南》内容简介:本书从区块链发展简史、账本模型、网络、共识、合约引擎及应用等多个方面进行系统介绍,希望帮助
《精通SEO:100%网站流量提升密码》内容简介:全书分为4个部分。第1篇【基础篇】主要介绍了搜索引擎和搜索引擎优化的基础知识,并通
《民国时期山东城市下层社会物质生活研究》内容简介:民国时期是中国社会转型的重要时期。民国时期城市下层民众的生活遭际中蕴含着
《拯救社交脸盲症》内容简介:本书是一部激励心灵的励志作品,本书主要通过社交心理学、社交技巧学、社交口才学等诸多成功要素,深
《组织合伙人:寻找增长新曲线》内容简介:企业增长的底层逻辑是什么?企业组织架构的痛点是什么?如何找到企业的增长新曲线?如何
Thisisthemostimportant-andfascinating-bookyetwrittenabouthowthedigitalagewithaff...
《从零开始学Flutter开发》内容简介:本书针对目前高速发展的Flutter跨平台移动开发技术方案,从零开始深入讲解其中涉及的技术点,
《看透Spring MVC》内容简介:全书分为四篇,共22章。第一篇(第1~7章)介绍网站相关的基础知识,涉及网站架构、网络通信的底层协
可用性设计是Web设计中最重要也是最困难的一项任务。《点石成金》的作者根据自己多年从业的经验,剖析用户的心理,在用户使用的模
《家庭预防中风100招》内容简介:全书分上下两篇。上篇主要讲述中风的基础知识,怎么去认识中风这个疾病相关的基础知识,下篇主要讲
具时滞的神经网络模型的分支问题研究 本书特色 本书是作者参与完成国家高技术研究发展计划(863计划)课题、国家自然科学基金项目、吉林省教育厅科学研究规划项目研究...
《什么是高中物理》内容简介:几乎囊括了高中物理的所有知识点,流畅而有趣地讲述这些内容的来龙去脉,并以一个清晰的脉络串起来,
黑客大曝光网络安全机密与解决方案 本书特色 (1)本书是在前6版的基础上(前期产品累计销售超20万册)对内容进行全面更新和扩充,相信本书(第7版)一定能够延续前...
一看就懂的Excel办公技巧全图解 本书特色 《一看就懂的excel办公技巧全图解》打破了从职位到行业的职能界限,让工作轻松对号入座;打通从心法到招式的关键穴道...
Java和Android开发学习指南-(第2版) 本书特色 本书是java语言学习指南,特别针对使用java进行android应用程序开发展开了详细介绍。全书共...