本专著对抄袭检测,尤其是高模糊抄袭检测,开展深入的研究。以大幅提高抄袭检测系统性能为目标,提出了基于统计机器学习方法解决抄袭检测问题的方法,探索了抄袭检测的语料库构建、web环境下的抄袭源检索和基于语义的高模糊抄袭检测的问题、方法、架构和模型。具体内容包括:1、综述了抄袭检测的概念、类型和框架;2、提出了基于自然标注的抄袭语料构建方法,解决了高质量、反映真实抄袭情况的抄袭语料匮乏问题;3、提出了基于排序学习的源检索查询生成模型和基于检索结果聚合性的源检索过滤模型,解决了以互联网为抄袭资源的抄袭源检索问题;4、提出了句法和语义交互的文本深度释义匹配模型和基于序列标注的文本对齐模型,解决了高模糊抄袭的检测问题。
《抄袭检测研究》以文本的抄袭检测为研究对象,探索了抄袭检测的语料库构建、Web环境下的抄袭源检索和高模糊抄袭检测的文本对齐的问题、数据、架构和模型。《抄袭检测研究》共9章,第1~3章介绍了抄袭检测的概念、类型和框架,综述了抄袭检测的方法;第4章介绍了现有抄袭语料构建方法,提出了基于自然标注的抄袭语料构建方法;第5和第6章对抄袭源检索开展研究,描述了基于排序学习的源检索查询生成模型和关注检索结果聚合性的源检索过滤模型;第7~9章,对抄袭检测的文本对齐开展研究,提出了基于排序学习的抄袭文本匹配模型、句法和语义交互的释义文本深度匹配模型以及基于序列标注的文本对齐模型。
在刚过去的十年我们见证了共享Web和社会媒体的诞生,它们用各种富有创意的方式将人们联系在一起。目前,成千上万的用户忙着在线玩
《宝贝计画(修订版)》内容简介:本书结合日本的"栽培式”教育和英国伦敦中央圣马丁艺术与设计学院课题研究,原创"绘本教学系统”
家用游戏机简史 本书特色 本书以时间为轴,重新厘清了30余年游戏主机的成长历程,梳理了游戏产业的发展脉络。从幕后开发、技术变革、游戏策略等多重角度,解读五次游戏...
数据清洗是数据挖掘与分析过程中不可缺少的一个环节,但因为数据类型极其复杂,传统的清洗脏数据工作单调乏味且异常辛苦。如果能
《长三角文化产业发展蓝皮书》内容简介:本书分为五个部分,主要包括总报告、行业报告篇、专题报告篇、区域报告篇和长三角文化产业
《法律硕士联考基本词条释义》内容简介:法律硕士联考科目法律术语的解释,近似概念的比较辨析,基本概念的理解等等,含刑法学、民
翻开此书的你,也许是JavaScript的崇拜者,正想摩拳擦掌地想尝试下学一学这一精巧的语言;也许是80后,90后的程序员或者前端架构
本书是《俄罗斯航空发动机制造史》丛书的上册,主要讲述第24号工厂的早期发展阶段(1912—1945年)。第一次世界大战后,在这个坚
《集团公司管理(第二版)》内容简介:本书构建了集团公司管理的架构体系,包括集团公司战略与功能定位、管理模式选择、组织结构确
作者简介:BoisyG.Pitre资深苹果开发专家,曾任Siri语音识别技术提供方Nuance公司Mac产品小组的资深软件工程师,参与开发了语音识
《通信原理》(第5版)是在1980、1984、1988、1995年出版的《通信原理》教材的基础上,根据科技发展和教学改革实践的需要,经评审和
所谓考古,通常是指根据过去与人类活动有关的实物遗存研究当时人们的生活及社会状况,进而解析人类文化与社会发展的历史过程,探
發明是百分之一的靈感加上百分之九十九的努力「創造突破性產品」中,作者以日常生活中已開發的商品為例,小從蔬果削皮力、手電筒
《Android4高级编程(第3版)》由Android权威专家编写,涵盖了所有最新的内容,是学习使用Android4SDK开发移动应用程序的理想指南。
《牛妞与羊爸》内容简介:如何关爱孩子?如何教育儿女?历来是家庭生活中的大事,也是父母最上心最挠头的问题。羊爸为牛妞写了19年
《App Inventor创意趣味编程进阶》内容简介:App Inventor是一款简单易上手的可视化安卓App开发工具,随着各种开源硬件和人工智能技
数据结构基础(C语言版)(第2版) 本书特色 《数据结构基础(C语言版)(第2版)》不仅可以作为计算机及相关专业本科生“数据结构”课程的教材,也可以作为研究生*...
《团体心理游戏256例》内容简介:心理游戏是一种在团体情境中提供心理帮助与指导的重要方式,它是通过团体内人际交互,促使个体在人
《ACM图灵奖:计算机发展史的缩影(1966-2006)(第3版)》介绍了51位ACM图灵奖获得者的工作和事迹。通过对20世纪下半叶及21世纪初有代
《数学战略家:谷超豪传》内容简介:《谷超豪传(数学战略家)》是《大家丛书》系列丛书之一。谷超豪,数学家。复旦大学教授,中国科