《Python自然语言处理(影印版)》提供了非常易学的自然语言处理入门介绍,该领域涵盖从文本和电子邮件预测过滤,到自动总结和翻译等多种语言处理技术。在《Python自然语言处理(影印版)》中,你将学会编写Python程序处理大量非结构化文本。你还将通过使用综合语言数据结构访问含有丰富注释的数据集,理解用于分析书面通信内容和结构的主要算法。
《Python自然语言处理》准备了充足的示例和练习,可以帮助你:
从非结构化文本中抽取信息,甚至猜测主题或识别“命名实体”;
分析文本语言结构,包括解析和语义分析;
访问流行的语言学数据库,包括WordNet和树库(treebank);
从多种语言学和人工智能领域中提取的整合技巧。
《Python自然语言处理(影印版)》将帮助你学习运用Python编程语言和自然语言工具包(NLTK)获得实用的自然语言处理技能。如果对于开发Web应用、分析多语言新闻源或记录濒危语言感兴趣——即便只是想从程序员视角观察人类语言如何运作,你将发现《Python自然语言处理》是一本令人着迷且极为有用的好书。
Preface
1.Language Processing and Python
1.1 Computing with Language: Texts and Words
1.2 A Closer Look at Python: Texts as Lists of Words
1.3 Computing with Language: Simple Statistics
1.4 Back to Python: Making Decisions and Taking Control
1.5 Automatic Natural Language Understanding
1.6 Summary
1.7 Further Reading
1.8 Exercises
2.Accessing Text Corpora and Lexical Resources
2.1 Accessing Text Corpora
2.2 Conditional Frequency Distributions
2.3 More Python: Reusing Code
2.4 Lexical Resources
2.5 WordNet
2.6 Summary
2.7 Further Reading
2.8 Exercises
3.Processing Raw Text
3.1 Accessing Text from the Web and from Disk
3.2 Strings: Text Processing at the Lowest Level
3.3 Text Processing with Unicode
3.4 Regular Expressions for Detecting Word Patterns
3.5 Useful Applications of Regular Expressions
3.6 Normalizing Text
3.7 Regular Expressions for Tokenizing Text
3.8 Segmentation
3.9 Formatting: From Lists to Strings
3.10 Summary
3.11 Further Reading
3.12 Exercises
4.Writing Structured Programs
4.1 Back to the Basics
4.2 Sequences
4.3 Questions of Style
4.4 Functions: The Foundation of Structured Programming
4.5 Doing More with Functions
4.6 Program Development
4.7 Algorithm Design
4.8 A Sample of Python Libraries
4.9 Summary
4.10 Further Reading
4.11 Exercises
5.Categorizing andTagging Words
5.1 Using a Tagger
5.2 Tagged Corpora
5.3 Mapping Words to Properties Using Python Dictionaries
5.4 Automatic Tagging
5.5 N-Gram Tagging
5.6 Transformation-Based Tagging
5.7 How to Determine the Category of a Word
5.8 Summary
5.9 Further Reading
5.10 Exercises
6.Learning to Classify Text
6.1 Supervised Classification
6.2 Further Examples of Supervised Classification
6.3 Evaluation
6.4 Decision Trees
6.5 Naive Bayes Classifiers
6.6 Maximum Entropy Classifiers
6.7 Modeling Linguistic Patterns
6.8 Summary
6.9 Further Reading
6.10 Exercises
7.Extracting Information from Text
7.1 Information Extraction
7.2 Chunking
7.3 Developing and Evaluating Chunkers
7.4 Recursion in Linguistic Structure
7.5 Named Entity Recognition
7.6 Relation Extraction
7.7 Summary
7.8 Further Reading
7.9 Exercises
8.Analyzing Sentence Structure
8.1 Some Grammatical Dilemmas
8.2 Whats the Use of Syntax?
8.3 Context-Free Grammar
8.4 Parsing with Context-Free Grammar
8.5 Dependencies and Dependency Grammar
8.6 Grammar Development
8.7 Summary
8.8 Further Reading
8.9 Exercises
9.Building Feature-Based Grammars
9.1 Grammatical Features
9.2 Processing Feature Structures
9.3 Extending a Feature-Based Grammar
9.4 Summary
9.5 Further Reading
9.6 Exercises
10.Analyzing the Meaning of Sentences
10.1 Natural Language Understanding
10.2 Propositional Logic
10.3 First-Order Logic
10.4 The Semantics of English Sentences
10.5 Discourse Semantics
10.6 Summary
10.7 Further Reading
10.8 Exercises
11.Managing Linguistic Data
11.1 Corpus Structure: A Case Study
11.2 The Life Cycle of a Corpus
11.3 Acquiring Data
11.4 Working with XML
11.5 Working with Toolbox Data
11.6 Describing Language Resources Using OLAC Metadata
11.7 Summary
11.8 Further Reading
11.9 Exercises
Afterword: The Language Challenge
Bibliography
NLTK Index
General Index
《Python灰帽子》是由知名安全机构ImmunityInc的资深黑帽JustinSeitz主笔撰写的一本关于编程语言Python如何被广泛应用于黑客与逆
C#经典名著!也是Wrox红皮书中最畅销的品种之一,从第一版开始就名满天下;其第3版被中华读书报、CSDN、《程序员》等机构评选为
儿童数码照片处理与设计宝典 本书特色 《儿童数码照片处理与设计宝典》编辑推荐:光盘中素材文件夹收录了24个生肖模板,24个星座模板,44套英文字体,以及25张精...
人类历史上每隔一段时间就会出现新的“革命”,每次“革命”都伴随着创造巨富的机会。经济的最终目的是不断地追求公平和效率,而
《Java程序员面试秘笈》内容简介:Java程序员目前就业形势较好,因为Java的应用太广泛了,从网页开发到手机安卓开发,都离不开Java
本书是“当代最了不起的科学家作家”卡斯蒂讲述仿真学的力作。作为正在引发科学革命的计算机仿真,不是基于直接观察实验,而是基
《Shell脚本学习指南》将告诉你这些有关UNIX主流工具的知识。除此之外,《Shell脚本学习指南》还会帮助你解决UNIX命令与标准的差
《双相障碍精准医学临床诊疗指南》内容简介:本书是“转化医学出版工程·关键技术”分册之一。双相障碍是一类高发的严重的精神疾病
FlashActionScript3.0的出现,不仅从形式上改变了ActionScript,而且从本质上改变了ActionScript,使ActionScrip...
《研发绩效管理手册(第2版)》内容简介:本书从中国企业目前的研发绩效管理现状入手,结合作者多年的实践经验,详细介绍了研发绩效
周鸿祎作序推荐!全球科技圈产品经理争相学习的产品管理秘笈!以用户思维管理产品,管理团队,管理自我,学会比其他人更聪明、更
《一看就停不下来的三国史》内容简介:原来董卓竟曾有过周公梦?贾诩是三国时期最精致的利己主义者?是武圣关羽的傲娇终结了刘备的
《数据库系统概论(第4版)》第1版、第2版和第3版分别于1983年、1991年、2000年出版。第3版被列为“面向21世纪课程教材”,第4版是
编程珠玑-第2版-修订版 本书特色 本书是计算机科学方面的经典名著。书的内容围绕程序设计人员面对的一系列实际问题展开。作者jon bentley 以其独有的洞察...
《剪发技术专业图解教程》内容简介:本书以发型层次为线索,通过4种层次分别在颈部、后脑区、侧发区、顶发区、脸周围的不同表现,详
本教材以力学理论和控制理论的全面讲述为特色。教材的重点在于用严谨而系统的方式介绍机器人动力学与控制的基本概念和主要结果。
《游学集录》内容简介:本书为2004年版《游学集录》的修订本,收为“孙昌武文集”的一种。书中所收录的36篇文章,除含孙昌武于20世
本书透彻地讲解了Flash组件开发、Flash游戏开发,以及SWF文件加解密与Flash文件综合性保护这三个话题。“弥赛亚之书”和“逆水游
网页设计(DW/FL/PS)从新手到高手-(随书赠送光盘1张) 本书特色 本书是一本网页设计学习宝典,全书通过150多个实战案例,以及250多分钟全程同步语音教...
《真实世界的经济学》内容简介:经济学大家、北大国发院教授周其仁代表作。经济学基于“理性人”假设,但它应当用来解释处处“不理