《Python自然语言处理(影印版)》提供了非常易学的自然语言处理入门介绍,该领域涵盖从文本和电子邮件预测过滤,到自动总结和翻译等多种语言处理技术。在《Python自然语言处理(影印版)》中,你将学会编写Python程序处理大量非结构化文本。你还将通过使用综合语言数据结构访问含有丰富注释的数据集,理解用于分析书面通信内容和结构的主要算法。
《Python自然语言处理》准备了充足的示例和练习,可以帮助你:
从非结构化文本中抽取信息,甚至猜测主题或识别“命名实体”;
分析文本语言结构,包括解析和语义分析;
访问流行的语言学数据库,包括WordNet和树库(treebank);
从多种语言学和人工智能领域中提取的整合技巧。
《Python自然语言处理(影印版)》将帮助你学习运用Python编程语言和自然语言工具包(NLTK)获得实用的自然语言处理技能。如果对于开发Web应用、分析多语言新闻源或记录濒危语言感兴趣——即便只是想从程序员视角观察人类语言如何运作,你将发现《Python自然语言处理》是一本令人着迷且极为有用的好书。
Preface
1.Language Processing and Python
1.1 Computing with Language: Texts and Words
1.2 A Closer Look at Python: Texts as Lists of Words
1.3 Computing with Language: Simple Statistics
1.4 Back to Python: Making Decisions and Taking Control
1.5 Automatic Natural Language Understanding
1.6 Summary
1.7 Further Reading
1.8 Exercises
2.Accessing Text Corpora and Lexical Resources
2.1 Accessing Text Corpora
2.2 Conditional Frequency Distributions
2.3 More Python: Reusing Code
2.4 Lexical Resources
2.5 WordNet
2.6 Summary
2.7 Further Reading
2.8 Exercises
3.Processing Raw Text
3.1 Accessing Text from the Web and from Disk
3.2 Strings: Text Processing at the Lowest Level
3.3 Text Processing with Unicode
3.4 Regular Expressions for Detecting Word Patterns
3.5 Useful Applications of Regular Expressions
3.6 Normalizing Text
3.7 Regular Expressions for Tokenizing Text
3.8 Segmentation
3.9 Formatting: From Lists to Strings
3.10 Summary
3.11 Further Reading
3.12 Exercises
4.Writing Structured Programs
4.1 Back to the Basics
4.2 Sequences
4.3 Questions of Style
4.4 Functions: The Foundation of Structured Programming
4.5 Doing More with Functions
4.6 Program Development
4.7 Algorithm Design
4.8 A Sample of Python Libraries
4.9 Summary
4.10 Further Reading
4.11 Exercises
5.Categorizing andTagging Words
5.1 Using a Tagger
5.2 Tagged Corpora
5.3 Mapping Words to Properties Using Python Dictionaries
5.4 Automatic Tagging
5.5 N-Gram Tagging
5.6 Transformation-Based Tagging
5.7 How to Determine the Category of a Word
5.8 Summary
5.9 Further Reading
5.10 Exercises
6.Learning to Classify Text
6.1 Supervised Classification
6.2 Further Examples of Supervised Classification
6.3 Evaluation
6.4 Decision Trees
6.5 Naive Bayes Classifiers
6.6 Maximum Entropy Classifiers
6.7 Modeling Linguistic Patterns
6.8 Summary
6.9 Further Reading
6.10 Exercises
7.Extracting Information from Text
7.1 Information Extraction
7.2 Chunking
7.3 Developing and Evaluating Chunkers
7.4 Recursion in Linguistic Structure
7.5 Named Entity Recognition
7.6 Relation Extraction
7.7 Summary
7.8 Further Reading
7.9 Exercises
8.Analyzing Sentence Structure
8.1 Some Grammatical Dilemmas
8.2 Whats the Use of Syntax?
8.3 Context-Free Grammar
8.4 Parsing with Context-Free Grammar
8.5 Dependencies and Dependency Grammar
8.6 Grammar Development
8.7 Summary
8.8 Further Reading
8.9 Exercises
9.Building Feature-Based Grammars
9.1 Grammatical Features
9.2 Processing Feature Structures
9.3 Extending a Feature-Based Grammar
9.4 Summary
9.5 Further Reading
9.6 Exercises
10.Analyzing the Meaning of Sentences
10.1 Natural Language Understanding
10.2 Propositional Logic
10.3 First-Order Logic
10.4 The Semantics of English Sentences
10.5 Discourse Semantics
10.6 Summary
10.7 Further Reading
10.8 Exercises
11.Managing Linguistic Data
11.1 Corpus Structure: A Case Study
11.2 The Life Cycle of a Corpus
11.3 Acquiring Data
11.4 Working with XML
11.5 Working with Toolbox Data
11.6 Describing Language Resources Using OLAC Metadata
11.7 Summary
11.8 Further Reading
11.9 Exercises
Afterword: The Language Challenge
Bibliography
NLTK Index
General Index
本书是美国亚马逊网站同类书长期销售冠军,并受到微软ASP.NET小组项目经理RobHoward的大力推荐,中文版由中科院专家汤涛老师翻译
《工作场所学习与学习变革》内容简介:本书运用建构扎根理论研究方法,立足于中国本土企业开展的基于项目行动学习(Project-Based
本书从科学社会学的角度,系统讲述了社会网络分析如何脱胎于不同的学科,经历了起伏的发展阶段,最后经过学科共同体的努力,会聚
《从0到100万:我的微商之路可以复制》内容简介:为什么将这本书取名为《从0到100万:我的微商之路可以复制》呢?因为纵观自己的微
作者结合丰富的设计案例,全面讲解了现代书籍设计的基本要素和流程,介绍了将书稿信息进行逻辑化、秩序化、艺术化和趣味化编排与
《唐诗三百首译注》内容简介:《唐诗三百首》为流传最广、影响深远的唐诗选本。此版每首诗均由题解、原诗、题解、注释、译文五部分
基于Pro/E注塑模具CAD设计-(含光盘) 本书特色 《基于Pro/E注塑模具CAD设计/全国高职高专规划教材·机械设计制造系列》是在工作过程系统化理论的课程...
Everwonderwhysometypelooksmoreprofessional,moresophisticatedthanothertype?Theans...
《Python数据科学:技术详解与商业实践》内容简介:本书是一本集数据分析、数据挖掘、机器学习为一体,面向商业实战的养成式学习手
《Lightroom Classic原创高级实战教程》内容简介:本书讲授Lightroom Classic的高级实用性技法,分为基础篇、精通篇和高手篇。在基
数据挖掘教程 内容简介 这本书的文字内容主要参考了美国麻省理工学院的数据挖掘开放讲义、国外许多大学老师关于数据挖掘课程的教学资料以及网络上对有关算法的介绍材料。...
《机器学习编程》内容简介:使用监督学习从头构建一个图像识别应用程序。用线性回归预测未来。深入研究梯度下降,这是一种驱动大部
《过瘾湘菜800例》内容简介:湘菜即湖南菜,至今已有2000多年的历史。1974年在长沙马王堆出土的一套西汉随葬竹简菜谱上,已记载了1
ActionScript3.0是Flash编程语言的一次重大升级,它更加高效、清晰和完善。《ActionScript3.0基础教程》详细地介绍了ActionSc...
"TechnicsandCivilization"firstpresenteditscompellinghistoryofthemachineandcritic...
《这厢有礼行天下:礼仪、素养与文明》内容简介:礼仪发于心,表于形,良好的礼仪素养内化在一个人的身心,表现在其一言一行中。良
罗振宇、丹尼尔•平克、赛斯•高汀、丹•艾瑞里、谢家华、阿里安娜•赫芬顿强烈推荐!美国亚马逊2013年年度商业&投资类图书榜前20名!
本书从移动通信的基本知识入手,对TD-SCDMA无线系统的原理和实现做了详细讲解,并重点阐述了RNC和NodeB的总体设计和功能实现,使
本书系统地介绍了图像通信的基本理论和方法以及图像通信的前沿技术,内容包括三大部分:首先在图像压缩编码部分介绍了熵编码、预
《法治视野下的政府权力结构和运行机制研究》内容简介:本书对中央政府18个部委以及11个省区的省级、地市级、县区级地方政府行政进