《Python自然语言处理(影印版)》提供了非常易学的自然语言处理入门介绍,该领域涵盖从文本和电子邮件预测过滤,到自动总结和翻译等多种语言处理技术。在《Python自然语言处理(影印版)》中,你将学会编写Python程序处理大量非结构化文本。你还将通过使用综合语言数据结构访问含有丰富注释的数据集,理解用于分析书面通信内容和结构的主要算法。
《Python自然语言处理》准备了充足的示例和练习,可以帮助你:
从非结构化文本中抽取信息,甚至猜测主题或识别“命名实体”;
分析文本语言结构,包括解析和语义分析;
访问流行的语言学数据库,包括WordNet和树库(treebank);
从多种语言学和人工智能领域中提取的整合技巧。
《Python自然语言处理(影印版)》将帮助你学习运用Python编程语言和自然语言工具包(NLTK)获得实用的自然语言处理技能。如果对于开发Web应用、分析多语言新闻源或记录濒危语言感兴趣——即便只是想从程序员视角观察人类语言如何运作,你将发现《Python自然语言处理》是一本令人着迷且极为有用的好书。
Preface
1.Language Processing and Python
1.1 Computing with Language: Texts and Words
1.2 A Closer Look at Python: Texts as Lists of Words
1.3 Computing with Language: Simple Statistics
1.4 Back to Python: Making Decisions and Taking Control
1.5 Automatic Natural Language Understanding
1.6 Summary
1.7 Further Reading
1.8 Exercises
2.Accessing Text Corpora and Lexical Resources
2.1 Accessing Text Corpora
2.2 Conditional Frequency Distributions
2.3 More Python: Reusing Code
2.4 Lexical Resources
2.5 WordNet
2.6 Summary
2.7 Further Reading
2.8 Exercises
3.Processing Raw Text
3.1 Accessing Text from the Web and from Disk
3.2 Strings: Text Processing at the Lowest Level
3.3 Text Processing with Unicode
3.4 Regular Expressions for Detecting Word Patterns
3.5 Useful Applications of Regular Expressions
3.6 Normalizing Text
3.7 Regular Expressions for Tokenizing Text
3.8 Segmentation
3.9 Formatting: From Lists to Strings
3.10 Summary
3.11 Further Reading
3.12 Exercises
4.Writing Structured Programs
4.1 Back to the Basics
4.2 Sequences
4.3 Questions of Style
4.4 Functions: The Foundation of Structured Programming
4.5 Doing More with Functions
4.6 Program Development
4.7 Algorithm Design
4.8 A Sample of Python Libraries
4.9 Summary
4.10 Further Reading
4.11 Exercises
5.Categorizing andTagging Words
5.1 Using a Tagger
5.2 Tagged Corpora
5.3 Mapping Words to Properties Using Python Dictionaries
5.4 Automatic Tagging
5.5 N-Gram Tagging
5.6 Transformation-Based Tagging
5.7 How to Determine the Category of a Word
5.8 Summary
5.9 Further Reading
5.10 Exercises
6.Learning to Classify Text
6.1 Supervised Classification
6.2 Further Examples of Supervised Classification
6.3 Evaluation
6.4 Decision Trees
6.5 Naive Bayes Classifiers
6.6 Maximum Entropy Classifiers
6.7 Modeling Linguistic Patterns
6.8 Summary
6.9 Further Reading
6.10 Exercises
7.Extracting Information from Text
7.1 Information Extraction
7.2 Chunking
7.3 Developing and Evaluating Chunkers
7.4 Recursion in Linguistic Structure
7.5 Named Entity Recognition
7.6 Relation Extraction
7.7 Summary
7.8 Further Reading
7.9 Exercises
8.Analyzing Sentence Structure
8.1 Some Grammatical Dilemmas
8.2 Whats the Use of Syntax?
8.3 Context-Free Grammar
8.4 Parsing with Context-Free Grammar
8.5 Dependencies and Dependency Grammar
8.6 Grammar Development
8.7 Summary
8.8 Further Reading
8.9 Exercises
9.Building Feature-Based Grammars
9.1 Grammatical Features
9.2 Processing Feature Structures
9.3 Extending a Feature-Based Grammar
9.4 Summary
9.5 Further Reading
9.6 Exercises
10.Analyzing the Meaning of Sentences
10.1 Natural Language Understanding
10.2 Propositional Logic
10.3 First-Order Logic
10.4 The Semantics of English Sentences
10.5 Discourse Semantics
10.6 Summary
10.7 Further Reading
10.8 Exercises
11.Managing Linguistic Data
11.1 Corpus Structure: A Case Study
11.2 The Life Cycle of a Corpus
11.3 Acquiring Data
11.4 Working with XML
11.5 Working with Toolbox Data
11.6 Describing Language Resources Using OLAC Metadata
11.7 Summary
11.8 Further Reading
11.9 Exercises
Afterword: The Language Challenge
Bibliography
NLTK Index
General Index
《VerilogHDL高级数字设计》结构清晰,内容组织合理、适合于计算机机、电子等相关专业本科高年级学生或研究生课程,同时也通用于
COMSOL Multiphysics工程实践与理论仿真-多物理场数值分析技术 本书特色 王刚、安琳编写的《COMSOL Multiphysics工程实践与理论...
”餐巾纸系列“全面来袭!全系列3本24开本双色彩图精致诠释,传授视觉化思考秘笈,让好玩的画图化繁为简、解决一切商业难题!★编
《放下一切去旅行》内容简介:最遗憾的事就是不曾说走就走,旅行,你还要等多久? 他带着拍立得和朋友结伴出行,在国内各种“X奴”
《智能制造》内容简介:智能制造是先进制造发展的形态,是企业实现转型升级的有力工具。为了更好地促进企业智能制造体系的推广和推
《历史文化名城名镇名村系列:沙沟镇》内容简介:本书是一本通俗读物、休闲读物,它不同于一般的学术著作。编者们力图运用通俗易懂
《Docker全攻略》内容简介:Docker是一个充满挑战性和趣味性的开源项目,它彻底释放了Linux虚拟化的威力,极大地缓解了云计算资源供
《专业伦理与职业素养:计算机、大数据与人工智能》内容简介:本书共12章,内容包括计算的社会背景,伦理与道德,计算机伦理规则,
《微信小程序策划与运营》内容简介:本书全面介绍了微信小程序及小程序运营各模块的具体内容。第1章重点介绍小程序到底是什么,其中
《机器学习与流场数据可视化》内容简介:科学计算可视化(ScientificVisualization,SciVis)是计算机图形学的一个重要研究方向,是
《孙子兵法(插图本)》内容简介:本书是春秋末年孙武所著,为中国现存最古老最完备的军事学著作。《孙子兵法》自问世以来,对中国
《高效能团队模式》内容简介:高效能软件开发团队是任何组织能够持续交付价值的关键。本书主要介绍了高效能团队模式——团队拓扑,
《国家干预经济与中日近代化(修订本)》内容简介:本书以19世纪中后期中日两国两个典型企业的发展历程为例,从纵向和横向两个角度
《西南联大文学社团研究(精)》内容简介:本书是中华书局2011年版《季节燃起的花朵——西南联大文学社团研究》一书的增订本,共约
《海尔制》内容简介:率先提出“海尔制”概念,从“人单合一”到“海尔制”提炼与升华 本书从海尔37年来的战略与组织结构解剖其演化
EXCEL图表实战技巧精粹 本书特色 《EXCEL图表实战技巧精粹》内容丰富、图文并茂,内容由浅入深,适合于各个学习阶段的读者阅读,能有效地帮助读者提高Exce...
《现代货币理论在中国》内容简介:本书是一本主要由中国学者撰写的现代货币理论的入门书。书中从应对时代挑战角度解读现代货币理论
《当书法穿越唐朝》内容简介:打开书法世界的钥匙,体验真实的唐朝。罗振宇、张泉灵、邓宝剑推荐阅读。玩转创意的书坛影帝唐太宗﹑
《大跨越:中国电信业三十春秋》以记人记事的方式,生动地再现了中国电信业30年波澜壮阔的历史。全书共分十八章,以重大事件为线索
Java从入门到精通(第3版)(配光盘)(软件开发视频大讲堂) 本书特色 “软件开发视频大讲堂”丛书系清华社“视频大讲堂”重点大系之一。该大系包括多个子系列,每...