本专著对抄袭检测,尤其是高模糊抄袭检测,开展深入的研究。以大幅提高抄袭检测系统性能为目标,提出了基于统计机器学习方法解决抄袭检测问题的方法,探索了抄袭检测的语料库构建、web环境下的抄袭源检索和基于语义的高模糊抄袭检测的问题、方法、架构和模型。具体内容包括:1、综述了抄袭检测的概念、类型和框架;2、提出了基于自然标注的抄袭语料构建方法,解决了高质量、反映真实抄袭情况的抄袭语料匮乏问题;3、提出了基于排序学习的源检索查询生成模型和基于检索结果聚合性的源检索过滤模型,解决了以互联网为抄袭资源的抄袭源检索问题;4、提出了句法和语义交互的文本深度释义匹配模型和基于序列标注的文本对齐模型,解决了高模糊抄袭的检测问题。
《抄袭检测研究》以文本的抄袭检测为研究对象,探索了抄袭检测的语料库构建、Web环境下的抄袭源检索和高模糊抄袭检测的文本对齐的问题、数据、架构和模型。《抄袭检测研究》共9章,第1~3章介绍了抄袭检测的概念、类型和框架,综述了抄袭检测的方法;第4章介绍了现有抄袭语料构建方法,提出了基于自然标注的抄袭语料构建方法;第5和第6章对抄袭源检索开展研究,描述了基于排序学习的源检索查询生成模型和关注检索结果聚合性的源检索过滤模型;第7~9章,对抄袭检测的文本对齐开展研究,提出了基于排序学习的抄袭文本匹配模型、句法和语义交互的释义文本深度匹配模型以及基于序列标注的文本对齐模型。
《内容经济》内容简介:随着知识经济的高速发展以及人们信息获取方式的不断升级,知识付费行业在近几年呈现出了迅猛的发展势头。如
《党政机关公文标准与格式应用指南》内容简介:本书以新版《党政机关公文格式》国家标准和《党政机关公文处理工作条例》为理论基础
Theaimofthisbookistodiscussthefundamentalideaswhichliebehindthestatisticaltheory...
《信息产业部3G移动通信培训指定教材•3G移动通信系统概述》是为了帮助读者了解和掌握第三代移动通信系统三大主流技术的相关基础知
《忽必烈》内容简介:忽必烈,是中国和蒙古族历史上的重要人物。虽灭亡南宋,一统全国,行用汉法,创建元朝,却又多疑猜忌,贪财谥
《多核计算与程序设计》主要介绍适应于多核(或多处理器)计算机系统的算法和程序,共分为五个部分进行讲解。第1部分介绍多核编程
网络工程师教程(第三版) 本书特色 《网络工程师教程》根据人力资源和社会保障部、工业和信息化部文件,计算机技术与软件专业技术资格(水平)考试纳入全国专业技术人员...
《智能制造消费品工业方案(轻工篇)》内容简介:2015年以来,消费品工业各行业积极开展智能化改造升级,工业和信息化部认定了一批
《数据库基础与应用》内容简介:本书以Access 2010中文版为平台,从实际操作和应用的角度出发,以培养职业能力为目标,通过具体的应
《把你的草稿钉在墙上》是在美国华盛顿大学视觉传达专业学习的中国学生刘兰兰,对于其专业学习的笔记、总结和感受,深入记录了她
《智能科学与技术本科专业系列教材•神经网络设计方法与实例分析》从神经网络设计和应用实践出发,介绍了10种常见的人工神经网络的
Excel2013公式与函数辞典(646秘技大全) 本书特色本书共分为12部分,按功能对353个函数进行了彻底解说,包括日期与时间函数、数学与三角函数、统计函数...
《那场青春的一次出走》内容简介:这是一本青春情感美文集,主人公均是以青少年为主。那朦胧的爱情、浓浓的亲情,以及真挚的友情,
本书以Spring应用程序开发为中心,全面讲解如何运用SpringBoot提高效率,使应用程序的开发和管理更加轻松有趣。作者行文亲切流畅
《快乐地做老师》内容简介:本书是《幸福地做老师》的姊妹篇,介绍了教学奇人荆志强立足以生为本的“赋能教育”,建构激励型课堂、
本书详细介绍了世界前沿科技的发展态势,对若干国家的战略与部署进行了综述,并对我国前沿科技的进展、差距及发展中的重大问题进
《BLOG启示录:WordPress博客建设与经营》分三大部分,共17章。第一部分(1~5章)主要是介绍Web2.0、博客,以及LAMP的安装和架设,
《通信简史:从信鸽到6G+》内容简介:通信行业是当今社会的热门行业,本质上,通信其实是人类活动的极其重要的辅助手段。随着近代各
《幼儿心理学》内容简介:本书分为12章,包括绪论、幼儿心理发展概述、幼儿注意的发展、幼儿感觉和知觉的发展、幼儿记忆的发展、幼
《园区网络架构与技术》内容简介:本书以园区网络所面临的业务挑战为切入点,详细介绍了智简园区网络的架构与技术,旨在向读者全面