本专著对抄袭检测,尤其是高模糊抄袭检测,开展深入的研究。以大幅提高抄袭检测系统性能为目标,提出了基于统计机器学习方法解决抄袭检测问题的方法,探索了抄袭检测的语料库构建、web环境下的抄袭源检索和基于语义的高模糊抄袭检测的问题、方法、架构和模型。具体内容包括:1、综述了抄袭检测的概念、类型和框架;2、提出了基于自然标注的抄袭语料构建方法,解决了高质量、反映真实抄袭情况的抄袭语料匮乏问题;3、提出了基于排序学习的源检索查询生成模型和基于检索结果聚合性的源检索过滤模型,解决了以互联网为抄袭资源的抄袭源检索问题;4、提出了句法和语义交互的文本深度释义匹配模型和基于序列标注的文本对齐模型,解决了高模糊抄袭的检测问题。
《抄袭检测研究》以文本的抄袭检测为研究对象,探索了抄袭检测的语料库构建、Web环境下的抄袭源检索和高模糊抄袭检测的文本对齐的问题、数据、架构和模型。《抄袭检测研究》共9章,第1~3章介绍了抄袭检测的概念、类型和框架,综述了抄袭检测的方法;第4章介绍了现有抄袭语料构建方法,提出了基于自然标注的抄袭语料构建方法;第5和第6章对抄袭源检索开展研究,描述了基于排序学习的源检索查询生成模型和关注检索结果聚合性的源检索过滤模型;第7~9章,对抄袭检测的文本对齐开展研究,提出了基于排序学习的抄袭文本匹配模型、句法和语义交互的释义文本深度匹配模型以及基于序列标注的文本对齐模型。
《破绽:风口上的独角兽》内容简介:互联网时代是一个英雄不问出处的草莽时代。这个时代造就了一大批独角兽公司和新兴业态,它们出
《一本书读懂经济新常态》内容简介:无论局势如何变幻莫测,经济形势都备受各界关注,经济工作依然是党的当前所有工作的重心,发展
《网络安全之机器学习》内容简介:本书将介绍网络安全威胁生命周期的主要阶段,详细介绍如何为现有的网络安全产品实现智能解决方案
《C语言从入门到精通》从初学者的角度出发,以通俗易懂的语言,丰富多彩的实例,详细介绍了使用C语言进行程序开发应该掌握的各方
《唯食物可慰藉》内容简介:本书收录与饮食相关的美文22篇,一一讲述生命中的深情故事。一蔬一饭的爱意源远流长,岁月深处的凝望穿
《中国版权年鉴2018》内容简介:本书全面记录了2017年中国版权事业的发展状况,系统反映了我国版权管理保护工作的概貌,详实收载了
《移动Web实现指南:面向移动设备的网站优化、开发和设计》内容简介:从移动网站项目最早的创意和发现阶段,到最后的可用性分析,
本书是一本专门针对网页美工设计的图书,全面、细致地介绍利用Dreamweaver8和PhotoshopCS2进行创意和设计的具体方法和步骤。全书
《像绣花一样精细:城市治理的金山实践》内容简介:本书由上海交通大学中国城市治理研究院与上海市金山区合作编写。以案例的形式展
《个人理财理论与实务(第二版)》内容简介:本教材突破以往同名教材编写侧重于金融企业理财或理财师代客理财的视角,本教材从个人
《社会主义核心价值观融入大学生思想政治教育的创新机制研究》内容简介:本书着眼于社会主义核心价值观和大学生思想政治教育的融合
Inmodernwebapplicationstherearelotsofcaseswhenweneedtodocomplicatedcalculationsi...
《高校日常思想政治教育研究》内容简介:日常思想政治教育作为高校思想政治教育的重要组成部分,既是新时代高校落实立德树人根本任
《算法之美》内容简介:我们所有人的生活都受到有限空间和有限时间的限制,因此常常面临一系列难以抉择的问题。在一天或者一生的时
《张力与限界:中央苏区的革命(1933~1934)》内容简介:中央苏区史,在中共党史中是一段“别样的经历”。中共在1927年国共分裂后
书围绕着动态内存自动回收的话题,介绍了垃圾收集机制,详细分析了各种算法和相关技术。本书共12章。第1章首先介绍计算机存储器管
Beinghighlyflexibleinbuildingdynamic,database-drivenwebapplicationsmakesthePHPpr...
本书主要通过了解,学习,使用Arduino开源模块,让读者在实战过程中学习并掌握基于AVR8位单片机的项目开发技巧。在2011年举行的G
Thisbookprovidesthefoundationforunderstandingthetheoryandpracitceofcompilers.Rev...
《当代西方政治哲学》内容简介:本书理论前沿、理路清晰,学术性较强,文风朴实,以当代西方最著名的八位政治哲学家的政治哲学理论