本专著对抄袭检测,尤其是高模糊抄袭检测,开展深入的研究。以大幅提高抄袭检测系统性能为目标,提出了基于统计机器学习方法解决抄袭检测问题的方法,探索了抄袭检测的语料库构建、web环境下的抄袭源检索和基于语义的高模糊抄袭检测的问题、方法、架构和模型。具体内容包括:1、综述了抄袭检测的概念、类型和框架;2、提出了基于自然标注的抄袭语料构建方法,解决了高质量、反映真实抄袭情况的抄袭语料匮乏问题;3、提出了基于排序学习的源检索查询生成模型和基于检索结果聚合性的源检索过滤模型,解决了以互联网为抄袭资源的抄袭源检索问题;4、提出了句法和语义交互的文本深度释义匹配模型和基于序列标注的文本对齐模型,解决了高模糊抄袭的检测问题。
《抄袭检测研究》以文本的抄袭检测为研究对象,探索了抄袭检测的语料库构建、Web环境下的抄袭源检索和高模糊抄袭检测的文本对齐的问题、数据、架构和模型。《抄袭检测研究》共9章,第1~3章介绍了抄袭检测的概念、类型和框架,综述了抄袭检测的方法;第4章介绍了现有抄袭语料构建方法,提出了基于自然标注的抄袭语料构建方法;第5和第6章对抄袭源检索开展研究,描述了基于排序学习的源检索查询生成模型和关注检索结果聚合性的源检索过滤模型;第7~9章,对抄袭检测的文本对齐开展研究,提出了基于排序学习的抄袭文本匹配模型、句法和语义交互的释义文本深度匹配模型以及基于序列标注的文本对齐模型。
《编程卓越之道(卷1):深入理解计算机(第2版)》内容简介:卓越的代码需要利用现代编程语言的先进特性来实现软件功能。但软件最终
《护肤品全解码:100款超人气护肤品成分大检阅》内容简介:现在美容杂志、美容书籍琳琅满目。一些书籍和杂志的介绍过于简单和笼统,
《经典之重写与重探:晚清民国词论集》内容简介:本书分为上下两编,各三篇文章。上编主要讨论晚清民国间词人在创作方面对唐宋词经
《101个有科学根据的减肥小偏方》内容简介:热量过多就是中毒,体重过多就是自杀! 专业医师邱正宏将多年的研究成果与实践经验,总
DiveintogamedevelopmentandcreategreatmultiplayeronlinegameswithProAndroidWebGame...
《On Java 中文版:进阶卷(试读本)》内容简介:☆本电子书仅为试读本,截取原书部分内容。☆ 本书内容主要是对《On Java 中文版:
《智能科学与技术本科专业系列教材•神经网络设计方法与实例分析》从神经网络设计和应用实践出发,介绍了10种常见的人工神经网络的
《日本论》内容简介:戴季陶曾留学日本多年,与日本民众有过深入的交往,因此对日本有着通透的认识。在本书中,他纵论日本从皇权、
《赤子:余光中散文》内容简介:收录当代散文大师余光中的散文代表作,横跨诗歌、散文、评论、翻译四维写作空间,尽显一代文豪刚柔
《产品生命周期管理:21世纪企业制胜之道》主要内容:产品生命周期管理是当今制造企业重要的管理理念和方法,对提升我阳制造企业的
繁琐的CSS规则和各浏览器支持度的不统一素来都为网页设计师所诟病。通过多年潜心研究与深入测试,作者归纳组合出了多达350条的设
Althoughthedot-combubbleburstlongago,theinteractivemediaindustryisstillflushwith...
《赢家智慧》内容简介:本书是庄恩岳先生的最新力作。在本书中,作者结合亲身管理实践经验及大量鲜活的案例,将自己在工作与生活中
《大跨越:中国电信业三十春秋》以记人记事的方式,生动地再现了中国电信业30年波澜壮阔的历史。全书共分十八章,以重大事件为线索
BlogginghasmovedrapidlyfrombeingacrazetobecomeacorefeatureoftheInternetfromindiv...
《你不理财 财不理你(2)》内容简介:钱是需要去赚的,通常情况下,只要你能赚,你的财富才会越来越多,但同时也是省下来的。很多
《三四越界》内容简介:我所有小说、诗歌和白日梦的出处索隐。近年来屡获小说大奖的青年作家文珍首部散文力作 手绘三十四幅温暖回甘
《论语译注》内容简介:从汉代郑玄为《论语》做注开始直到当代,《论语》的注本层出不穷,其中朱熹的《论语集注》、刘宝楠的《论语
《云原生时代的CoreDNS学习指南》内容简介:本书介绍了CoreDNS与其他DNS服务器的区别、DNS基础理论、CoreDNS基本配置、CoreDNS管理
《小波变换与工程应用》从工程应用角度出发,主要介绍小波变换的基本理论与典型应用.全书共九章,小波变换的基本概念和原理部分