本专著对抄袭检测,尤其是高模糊抄袭检测,开展深入的研究。以大幅提高抄袭检测系统性能为目标,提出了基于统计机器学习方法解决抄袭检测问题的方法,探索了抄袭检测的语料库构建、web环境下的抄袭源检索和基于语义的高模糊抄袭检测的问题、方法、架构和模型。具体内容包括:1、综述了抄袭检测的概念、类型和框架;2、提出了基于自然标注的抄袭语料构建方法,解决了高质量、反映真实抄袭情况的抄袭语料匮乏问题;3、提出了基于排序学习的源检索查询生成模型和基于检索结果聚合性的源检索过滤模型,解决了以互联网为抄袭资源的抄袭源检索问题;4、提出了句法和语义交互的文本深度释义匹配模型和基于序列标注的文本对齐模型,解决了高模糊抄袭的检测问题。
《抄袭检测研究》以文本的抄袭检测为研究对象,探索了抄袭检测的语料库构建、Web环境下的抄袭源检索和高模糊抄袭检测的文本对齐的问题、数据、架构和模型。《抄袭检测研究》共9章,第1~3章介绍了抄袭检测的概念、类型和框架,综述了抄袭检测的方法;第4章介绍了现有抄袭语料构建方法,提出了基于自然标注的抄袭语料构建方法;第5和第6章对抄袭源检索开展研究,描述了基于排序学习的源检索查询生成模型和关注检索结果聚合性的源检索过滤模型;第7~9章,对抄袭检测的文本对齐开展研究,提出了基于排序学习的抄袭文本匹配模型、句法和语义交互的释义文本深度匹配模型以及基于序列标注的文本对齐模型。
《Node.js》内容简介:Node.js作为近几年新兴的一种编程运行时,托V8引擎的福,在作为后端服务时有比较高的运行效率,在很多场景下
Geomagic Studio逆向工程技术及应用-(含光盘) 本书特色 《Geomagic Studio逆向工程技术及应用》是由清华大学出版社出版的。Geoma...
《MySQL数据库应用项目教程》内容简介:本书采用“工学结合、任务驱动”的模式进行编写,面向企业的工作过程,以“销售管理系统”为
如果你是一名工程师或无线通信项目经理,那么《无线通信系统仿真:C++实用模型》既是方便的参考书,又是理想的指导手册。它可以帮
《写给Web开发人员看的HTML5教程》通过结合大量实际案例和源代码对HTML5的重要特性进行了详细讲解,内容全面丰富,易于理解。全书
《从维熙自选集》内容简介:从维熙的作品,无论小说还是散文,都演绎着中国历史以及作者个人的深切感悟。本书精选了他优秀且极具代
《深入浅出数据分析》以类似“章回小说”的活泼形式,生动地向读者展现优秀的数据分析人员应知应会的技术:数据分析基本步骤、实
EDIUS 6.5快刀手高效剪辑技法 本书特色 edius是一款用于广播电视和影视后期制作的视频剪辑软件,它支持当前所有标清和高清格式的实时编辑,被誉为pc平台...
Thisbookisdesignedinmakingstatisticians,researchers,andprogrammersawareoftheawes...
作者简介:SimonBrown全球知名软件架构独立咨询师、讲师,创办了专门讨论软件架构问题的网站“编码架构”(codingthearchitectur
《1939最后的乡愁》内容简介:梁思成、刘敦桢等营造学社一行,于1939-1940年在川、康地区进行古建筑考察,这是营造学社最后一次野外
《新能源系统储能原理与技术》内容简介:随着可再生能源的不断发展,催生了对于储能设备的需求,新一代储能电池、超级电容器等储能
从编程技术到项目管理,RoySingham、MartinFowler、RebeccaParsons等来自ThoughtWorks的思想领袖通过本书中的13篇美文...
《服从力》内容简介:服从力这本书,周平老师和多位作者已构思多年。看到非常多的人,因为服从力不够而在岗位中处处受挫;看到非常
《斜杠思维:如何打造独特而强大的自品牌》内容简介:移动互联网时代,自品牌的塑造已经成为一个人生存与发展的王道。这本书跨界职
《创作者》内容简介:这是一次以创作者/平台战略规划者的双重视角完成的讨论,是一本面向内容行业整体的指导用书。无论是平台运营者
MATLAB在时间序列分析中的应用 本书特色 本书简明扼要地介绍了时间序列及其相关领域的基本概念和基本理论,对ARMA序列预测、时间序列的统计分析、时间序列的时...
《大数据与劳动力市场研究》内容简介:利用网络大数据开展就业市场的分析和预测,为政府提供决策咨询,其重要性无论如何强调,应当
《AndroidUI基础教程》介绍了Android编程专家JasonOstrander将展示如何为Android应用程序创建用户界面。《AndroidUI基础教...
《企业网络安全建设最佳实践》内容简介:本书是“奇安信认证网络安全工程师系列丛书”之一,全书采用项目式、场景式的知识梳理方式