本专著对抄袭检测,尤其是高模糊抄袭检测,开展深入的研究。以大幅提高抄袭检测系统性能为目标,提出了基于统计机器学习方法解决抄袭检测问题的方法,探索了抄袭检测的语料库构建、web环境下的抄袭源检索和基于语义的高模糊抄袭检测的问题、方法、架构和模型。具体内容包括:1、综述了抄袭检测的概念、类型和框架;2、提出了基于自然标注的抄袭语料构建方法,解决了高质量、反映真实抄袭情况的抄袭语料匮乏问题;3、提出了基于排序学习的源检索查询生成模型和基于检索结果聚合性的源检索过滤模型,解决了以互联网为抄袭资源的抄袭源检索问题;4、提出了句法和语义交互的文本深度释义匹配模型和基于序列标注的文本对齐模型,解决了高模糊抄袭的检测问题。
《抄袭检测研究》以文本的抄袭检测为研究对象,探索了抄袭检测的语料库构建、Web环境下的抄袭源检索和高模糊抄袭检测的文本对齐的问题、数据、架构和模型。《抄袭检测研究》共9章,第1~3章介绍了抄袭检测的概念、类型和框架,综述了抄袭检测的方法;第4章介绍了现有抄袭语料构建方法,提出了基于自然标注的抄袭语料构建方法;第5和第6章对抄袭源检索开展研究,描述了基于排序学习的源检索查询生成模型和关注检索结果聚合性的源检索过滤模型;第7~9章,对抄袭检测的文本对齐开展研究,提出了基于排序学习的抄袭文本匹配模型、句法和语义交互的释义文本深度匹配模型以及基于序列标注的文本对齐模型。
《做真正的我》内容简介:本书通过一些真实事例的验证,向大家阐述了其实每一个人都是“天生我才必有用”,不要妄自菲薄,轻看自己
《雷达手册(第3版)》内容简介:雷达是电子工程系统的一个重要例子。在大学工科课程中,人们通常把重点放在诸如电路设计、信号、固
《游戏编程中的人工智能技术》是人工智能游戏编程的一本指南性读物,介绍在游戏开发中怎样应用遗传算法和人工神经网络来创建电脑
计算机系统结构(第四版) 本书特色 《计算机系统结构》内容丰富,取材适当,每章均有大量例题和习题,书末附有主要习题的参考答案。《计算机系统结构》可作为计算机专业...
《学习书法的十三个问题》内容简介:本书是近现代著名书法家启功先生对书法学习中常见问题的专题讲解,包括:迷信由于误解、字形结
《企业网络安全建设最佳实践》内容简介:本书是“奇安信认证网络安全工程师系列丛书”之一,全书采用项目式、场景式的知识梳理方式
《双相障碍精准医学临床诊疗指南》内容简介:本书是“转化医学出版工程·关键技术”分册之一。双相障碍是一类高发的严重的精神疾病
《承包地“三权分置”的法律表达与实效考察》内容简介:2018年中央一号文件着重提出深化农村土地制度改革,其中包括进一步完善农村
Visual Basic程序设计基础 本书特色 《高等学校“十二五”公共课计算机规划教材:Visual Basic程序设计基础》可作为普通高等学校非计算机专业本...
《商品美工实训》内容简介:《商品美工实训》是一本岗位项目实训教材,本书根据电子商务公司美工部门的岗位设置和技能要求整合课程
NLPdescribesinsimpletermswhatthesepeopledodifferentlyandenablesyoutolearnthesepa...
Thegapbetweenwhodesignersanddevelopersimaginetheirusersare,andwhothoseusersreall...
隐私保护数据发布:模型与算法 本书特色 随着数据挖掘和信息共享等数据库应用的出现与发展,如何保护隐私数据和防止敏感信息泄露成为当前面临的重大挑战。作为数据挖掘与...
《ATT&CK与威胁猎杀实战》内容简介:本书主要介绍ATT&CK框架与威胁猎杀。第1部分为基础知识,帮助读者了解如何收集数据以及如何通过
全国计算机等级考试教程二级公共基础知识 本书特色 《全国计算机等级考试教程——二级公共基础知识》依据教育部考试中心*新发布的《全国计算机等级考试大纲》以及作者多...
IBMAS/400到IBM@serveri系列的转变以及5版本系统软件的推出,都是IBM罗彻斯特实验室迎接电子商务时代变革的重要标志!本书将带领
「平面設計是帶給人夢想的幸福工作。從事平面設計,除了需要一點幽默和感性之外,擁有平面設計的基本知識更是必備條件。」本書收
本书详细地讲解了JavaScript编程所用到的基本知识和常用技术。全书分为三大部分。第1、2章是JavaScript的简介和在HTML中用JavaSc
Thenationalbestsellerbythe"ultimatethinkingmachine"(Forbes)whosepredictionsforth...
《数据之美》内容简介:这是一本教我们如何制作完美可视化图表,挖掘大数据背后意义的书。作者认为,可视化是一种媒介,向我们揭示