《Python自然语言处理(影印版)》提供了非常易学的自然语言处理入门介绍,该领域涵盖从文本和电子邮件预测过滤,到自动总结和翻译等多种语言处理技术。在《Python自然语言处理(影印版)》中,你将学会编写Python程序处理大量非结构化文本。你还将通过使用综合语言数据结构访问含有丰富注释的数据集,理解用于分析书面通信内容和结构的主要算法。
《Python自然语言处理》准备了充足的示例和练习,可以帮助你:
从非结构化文本中抽取信息,甚至猜测主题或识别“命名实体”;
分析文本语言结构,包括解析和语义分析;
访问流行的语言学数据库,包括WordNet和树库(treebank);
从多种语言学和人工智能领域中提取的整合技巧。
《Python自然语言处理(影印版)》将帮助你学习运用Python编程语言和自然语言工具包(NLTK)获得实用的自然语言处理技能。如果对于开发Web应用、分析多语言新闻源或记录濒危语言感兴趣——即便只是想从程序员视角观察人类语言如何运作,你将发现《Python自然语言处理》是一本令人着迷且极为有用的好书。
Preface
1.Language Processing and Python
1.1 Computing with Language: Texts and Words
1.2 A Closer Look at Python: Texts as Lists of Words
1.3 Computing with Language: Simple Statistics
1.4 Back to Python: Making Decisions and Taking Control
1.5 Automatic Natural Language Understanding
1.6 Summary
1.7 Further Reading
1.8 Exercises
2.Accessing Text Corpora and Lexical Resources
2.1 Accessing Text Corpora
2.2 Conditional Frequency Distributions
2.3 More Python: Reusing Code
2.4 Lexical Resources
2.5 WordNet
2.6 Summary
2.7 Further Reading
2.8 Exercises
3.Processing Raw Text
3.1 Accessing Text from the Web and from Disk
3.2 Strings: Text Processing at the Lowest Level
3.3 Text Processing with Unicode
3.4 Regular Expressions for Detecting Word Patterns
3.5 Useful Applications of Regular Expressions
3.6 Normalizing Text
3.7 Regular Expressions for Tokenizing Text
3.8 Segmentation
3.9 Formatting: From Lists to Strings
3.10 Summary
3.11 Further Reading
3.12 Exercises
4.Writing Structured Programs
4.1 Back to the Basics
4.2 Sequences
4.3 Questions of Style
4.4 Functions: The Foundation of Structured Programming
4.5 Doing More with Functions
4.6 Program Development
4.7 Algorithm Design
4.8 A Sample of Python Libraries
4.9 Summary
4.10 Further Reading
4.11 Exercises
5.Categorizing andTagging Words
5.1 Using a Tagger
5.2 Tagged Corpora
5.3 Mapping Words to Properties Using Python Dictionaries
5.4 Automatic Tagging
5.5 N-Gram Tagging
5.6 Transformation-Based Tagging
5.7 How to Determine the Category of a Word
5.8 Summary
5.9 Further Reading
5.10 Exercises
6.Learning to Classify Text
6.1 Supervised Classification
6.2 Further Examples of Supervised Classification
6.3 Evaluation
6.4 Decision Trees
6.5 Naive Bayes Classifiers
6.6 Maximum Entropy Classifiers
6.7 Modeling Linguistic Patterns
6.8 Summary
6.9 Further Reading
6.10 Exercises
7.Extracting Information from Text
7.1 Information Extraction
7.2 Chunking
7.3 Developing and Evaluating Chunkers
7.4 Recursion in Linguistic Structure
7.5 Named Entity Recognition
7.6 Relation Extraction
7.7 Summary
7.8 Further Reading
7.9 Exercises
8.Analyzing Sentence Structure
8.1 Some Grammatical Dilemmas
8.2 Whats the Use of Syntax?
8.3 Context-Free Grammar
8.4 Parsing with Context-Free Grammar
8.5 Dependencies and Dependency Grammar
8.6 Grammar Development
8.7 Summary
8.8 Further Reading
8.9 Exercises
9.Building Feature-Based Grammars
9.1 Grammatical Features
9.2 Processing Feature Structures
9.3 Extending a Feature-Based Grammar
9.4 Summary
9.5 Further Reading
9.6 Exercises
10.Analyzing the Meaning of Sentences
10.1 Natural Language Understanding
10.2 Propositional Logic
10.3 First-Order Logic
10.4 The Semantics of English Sentences
10.5 Discourse Semantics
10.6 Summary
10.7 Further Reading
10.8 Exercises
11.Managing Linguistic Data
11.1 Corpus Structure: A Case Study
11.2 The Life Cycle of a Corpus
11.3 Acquiring Data
11.4 Working with XML
11.5 Working with Toolbox Data
11.6 Describing Language Resources Using OLAC Metadata
11.7 Summary
11.8 Further Reading
11.9 Exercises
Afterword: The Language Challenge
Bibliography
NLTK Index
General Index
《原力:再造企业价值战略》内容简介:在移动互联背景下,商业环境发生了巨大变化,新商业模式正在井喷,巨大的价值潜力不断释放。
鲁奇克、凯兹所著,蒋晓等翻译的《NONOBJECT设计(精)》提出了一种全新的Nonobject设计方法。与符和用户普遍需求和感受的“以人为
《趣学Python算法100例》内容简介:本书从一些经典算法出发,为读者展示了100个Python趣味编程实例。本书共12章,涵盖趣味算法入门
《十八世纪的中国政治》内容简介:从康熙帝晚年,经雍正朝,直到乾隆帝去世,祖孙三代皇帝的统治跨越了整个18世纪。这100年间,中国
《通信类毕业生求职宝典》找一份让自己满意且适合自身发展的工作对于即将走向社会的同学们而言尤为重要。通信类专业毕业生知识覆
本书基于虚构的计算机Pep/8,清晰、详细,循序渐进地介绍了计算机组成、汇编语言和计算机体系结构中的核心思想,围绕7个抽象层次
《微信力量》内容简介:微信俨然已进化为一种万能的连接器,拥有连接一切的能力,彰显出强大的连接力,无处不在,无所不能。本书将
《搜索引擎优化》对于DIY搜索引擎营销初学者而言,《搜索引擎优化》是一本非常好的入门读物。该书不仅涵盖了SEO的基本要素,还深
《抗战时代生活史》内容简介:本书是“陈存仁作品”之一本,与《银元时代生活史》可以看作是作者自传两部曲。书中描写了上海沦陷后
SAP从入门到精通 本书特色 源于实践 成就行家上海软件行业协会 秘书长 杨根兴、江苏省软件行业协会副会长 徐雷鼎力推荐6个核心模块的深入解析50个疑难解答和实...
《路遥传》内容简介:路遥的短暂人生迸发出强大的生命光焰,其作品《人生》《平凡的世界》影响了千千万万普通读者。然而,英年早逝
《创业不可不防的法律风险》内容简介:我国民营企业的平均寿命只有2.9年,而日本、美国的数据是我们的十多倍。主要原因在于许多创业
《文臣的一天(古代人的一天·第二辑)》内容简介:在漫长的历史发展过程中,中国古代逐步形成了一套规范、严密的文官制度,来保证
《看图学女性家庭健身(视频版)》内容简介:想要拥有美好的身材,不一定非要到健身房。只要你有一副小哑铃,一条弹力带,一个瑞士
《森林资源管理信息技术应用与实践》内容简介:森林是陆地生态系统的主体,林业是生态环境建设的主体。森林资源是决定林业生存与发
《商业模式与战略共舞》内容简介:本书为T型商业模式系列第二本书,介绍了商业模式与战略之间的区别与联系,从理论上把商业模式的内
《软件开发的201个原则》内容简介:本书汇总了软件工程原则。原则是关于软件工程的基本原理、规则或假设,不管所选的技术、工具或语
这是一本内容翔实的色彩设计手册,通过讲解色相或搭配图例的基础知识,以及都市中的形象色彩设计,传递给读者一种色彩搭配感觉,
《汉朝大历史》内容简介:汉朝何以成为与西罗马并立的两大帝国?汉朝的大一统局面是如何出现的?汉哀帝的断袖之癖,汉朝与四夷的战
《高端装备制造中精密直线电机电磁力分析及控制技术》内容简介:在以多轴高档数控机床、极大规模集成电路和重大科学仪器为代表的高