《Python自然语言处理(影印版)》提供了非常易学的自然语言处理入门介绍,该领域涵盖从文本和电子邮件预测过滤,到自动总结和翻译等多种语言处理技术。在《Python自然语言处理(影印版)》中,你将学会编写Python程序处理大量非结构化文本。你还将通过使用综合语言数据结构访问含有丰富注释的数据集,理解用于分析书面通信内容和结构的主要算法。
《Python自然语言处理》准备了充足的示例和练习,可以帮助你:
从非结构化文本中抽取信息,甚至猜测主题或识别“命名实体”;
分析文本语言结构,包括解析和语义分析;
访问流行的语言学数据库,包括WordNet和树库(treebank);
从多种语言学和人工智能领域中提取的整合技巧。
《Python自然语言处理(影印版)》将帮助你学习运用Python编程语言和自然语言工具包(NLTK)获得实用的自然语言处理技能。如果对于开发Web应用、分析多语言新闻源或记录濒危语言感兴趣——即便只是想从程序员视角观察人类语言如何运作,你将发现《Python自然语言处理》是一本令人着迷且极为有用的好书。
Preface
1.Language Processing and Python
1.1 Computing with Language: Texts and Words
1.2 A Closer Look at Python: Texts as Lists of Words
1.3 Computing with Language: Simple Statistics
1.4 Back to Python: Making Decisions and Taking Control
1.5 Automatic Natural Language Understanding
1.6 Summary
1.7 Further Reading
1.8 Exercises
2.Accessing Text Corpora and Lexical Resources
2.1 Accessing Text Corpora
2.2 Conditional Frequency Distributions
2.3 More Python: Reusing Code
2.4 Lexical Resources
2.5 WordNet
2.6 Summary
2.7 Further Reading
2.8 Exercises
3.Processing Raw Text
3.1 Accessing Text from the Web and from Disk
3.2 Strings: Text Processing at the Lowest Level
3.3 Text Processing with Unicode
3.4 Regular Expressions for Detecting Word Patterns
3.5 Useful Applications of Regular Expressions
3.6 Normalizing Text
3.7 Regular Expressions for Tokenizing Text
3.8 Segmentation
3.9 Formatting: From Lists to Strings
3.10 Summary
3.11 Further Reading
3.12 Exercises
4.Writing Structured Programs
4.1 Back to the Basics
4.2 Sequences
4.3 Questions of Style
4.4 Functions: The Foundation of Structured Programming
4.5 Doing More with Functions
4.6 Program Development
4.7 Algorithm Design
4.8 A Sample of Python Libraries
4.9 Summary
4.10 Further Reading
4.11 Exercises
5.Categorizing andTagging Words
5.1 Using a Tagger
5.2 Tagged Corpora
5.3 Mapping Words to Properties Using Python Dictionaries
5.4 Automatic Tagging
5.5 N-Gram Tagging
5.6 Transformation-Based Tagging
5.7 How to Determine the Category of a Word
5.8 Summary
5.9 Further Reading
5.10 Exercises
6.Learning to Classify Text
6.1 Supervised Classification
6.2 Further Examples of Supervised Classification
6.3 Evaluation
6.4 Decision Trees
6.5 Naive Bayes Classifiers
6.6 Maximum Entropy Classifiers
6.7 Modeling Linguistic Patterns
6.8 Summary
6.9 Further Reading
6.10 Exercises
7.Extracting Information from Text
7.1 Information Extraction
7.2 Chunking
7.3 Developing and Evaluating Chunkers
7.4 Recursion in Linguistic Structure
7.5 Named Entity Recognition
7.6 Relation Extraction
7.7 Summary
7.8 Further Reading
7.9 Exercises
8.Analyzing Sentence Structure
8.1 Some Grammatical Dilemmas
8.2 Whats the Use of Syntax?
8.3 Context-Free Grammar
8.4 Parsing with Context-Free Grammar
8.5 Dependencies and Dependency Grammar
8.6 Grammar Development
8.7 Summary
8.8 Further Reading
8.9 Exercises
9.Building Feature-Based Grammars
9.1 Grammatical Features
9.2 Processing Feature Structures
9.3 Extending a Feature-Based Grammar
9.4 Summary
9.5 Further Reading
9.6 Exercises
10.Analyzing the Meaning of Sentences
10.1 Natural Language Understanding
10.2 Propositional Logic
10.3 First-Order Logic
10.4 The Semantics of English Sentences
10.5 Discourse Semantics
10.6 Summary
10.7 Further Reading
10.8 Exercises
11.Managing Linguistic Data
11.1 Corpus Structure: A Case Study
11.2 The Life Cycle of a Corpus
11.3 Acquiring Data
11.4 Working with XML
11.5 Working with Toolbox Data
11.6 Describing Language Resources Using OLAC Metadata
11.7 Summary
11.8 Further Reading
11.9 Exercises
Afterword: The Language Challenge
Bibliography
NLTK Index
General Index
《人民币汇率制度选择的政治和经济分析》内容简介:本书分为三个部分。第一部分给出了人民币汇率政治经济学研究的基本架构。第二部
《Axure RP8实战手册》内容简介:本书是一本介绍使用Axure RP 8.0软件制作Web和App原型的图书,通过对基础操作和实战案例的讲解,帮
《擦一擦镜子,照见童年》内容简介:本书以回忆六、七十年代童年趣事为内容:1、通过不同的季节、空间,描绘当时的童年生活变化,及
《破茧成蝶》内容简介:市面上已经有很多专业的用户体验书籍,但解决用户体验设计师在职场中遇到的众多现实问题的图书并不多见。本
《哥德巴赫猜想》内容简介:本书收集了作者有代表性的纪实文学作品,所有篇章皆是具体人物的展现,所展现人物,皆为中国现当代时期
《美国玩全攻略(图文全彩版)》内容简介:本书为一本美国玩全攻略旅游达人宝典,共分为10章,内容包括玩转美国准备、华盛顿特区玩
MichioKakus"PhysicsoftheFuture:TheInventionsthatwillTransformourLives"isahypothe...
五笔字根查记手册 内容简介 许多人觉得五笔字型难学难记,难就难在五笔字型的编码与拆分。初学五笔字型的人都有这样的感觉,碰到一个汉字,往往**个字根能够准确地拆分...
《大国经济学》内容简介:起点独特·规模巨大·区域差异显著·治理层级复杂·连接全球的制造业大国 · 改革开放40余年,在一个急速
PowerPoint 2007演示文稿制作经典教程 内容简介 本书由国内一线office办公软件教育与培训专家编著,主要遵循powerpoint 2007教学大...
《戏很多的医学史》内容简介:⭐评书式科普开创者——吴京平,带来9.8分高分内容,给你讲医学故事,让你涨医学知识,更理智的爱自
《现代通信系统》(MATLAB版)(第2版)提供了利用MATLAB在计算机上解决“现代通信系统”课程中涉及的各方面问题的分析思路、方法、M
《冯唐成事心法》内容简介:他是热爱文艺的管理专家,是精通麦肯锡与曾国藩成事学的商业领袖,是医学博士出身的投资人。10年麦肯锡
"HTML5andJavaScriptWebApps"isaboutbuildingwebapplicationswithHTML5andW3Cspecific...
Howtounlockthehidden95%ofthecustomersmindthattraditionalmarketingmethodshaveneve...
《浮现式设计:专业软件开发的演进本质》主要面向软件开发者群体,尤其是对敏捷开发感兴趣的程序设计人员。浮现式设计是一种敏捷
《系统集成项目管理工程师历年真题解析》内容简介:系统集成项目管理工程师考试,是全国计算机技术与软件专业技术资格考试(简称软
《黑川雅之的产品设计》包括了理论一:时间含义理论二:身体感觉,触觉的时理论三:编辑的记忆理论四:物质和形体的理论五:晦暗
《鲁迅自编文集:伪自由书》内容简介:鲁迅经典杂文集,收录鲁迅寄给《申报》上的《自由谈》的杂感及一些笔战文章。冷嘲热讽讥评时
张量数据的特征提取与分类 本书特色 《张量数据的特征提取与分类》的主要研究内容是在模式识别应用领域中,提出新的基于张量数据的特征提取和分类算法,并且对这些张量型...