学术不端行为监测
学位论文学术不端行为检测系统 介绍与演示
同方知网(北京)技术有限公司 科研诚信管理系统研究中心
2020/6/19
大纲
一.引入学术不端行为检测的必要性与紧迫性 二.实施学术不端检测的可行性:原理与方法介绍 三.TMLC系统主要功能演示介绍 四.应用推广情况介绍与用户反馈意见分析 五.TMLC系统服务模式介绍 六.下一步工作计划
可行性分析
资源可行性
以《中国学术文献网络出版总库》为比对资源
总库收录了期刊、学位论文、会议论文、报纸、年 鉴、工具书、专利、外文文献、学术文献引文等与 科学研究、学习相关的主要资源。
拥有学术期刊7000余种,期刊全文文献2480万篇, 72万篇优秀硕士学位论文,9.6万篇博士学位论文; 重要会议论文106万篇;报纸500多万篇;国家标准 、专利、SPRINGER数据库
如果不能从研究生培养环节遏制学术不端行为, 带有不端治学态度的研究生毕业后,不断涌入各 级研究机构,不端行为就将形成“长江之水,滔 滔不绝”,就不能从根本上扭转不端行为不断恶 化的事态。
大纲
一.引入学术不端行为检测的原理与方法介绍 三.TMLC系统主要功能演示介绍 四.应用推广情况介绍与用户反馈意见分析 五.TMLC系统服务模式介绍 六.下一步工作计划
总重合字数
学位论文一般篇幅大,少则3~5万字,多则 十几万字,若以文字复制比来衡量一篇论 文的文字重合情况,不太合适。因为对于 一篇十几万字的博士论文来说,10%就已 达到1万字,文字复制情况已经非常严重。
对于博硕士论文检测,检测系统使用绝对 字数即总重合字数作为检测结果的核心指 标。
总文字复制比、总文字数
海量比对资源库
检测结果
工作原理(2)
待检测文档
指纹 XXX-YYYCCC-DDDDKKK-FFFF
➢CNKI自适应多阶指纹(AMLFP)特征检测速度快,准确率,召回率较 高,抗干扰性强
➢在千万量级全文比对数据中,单篇文献检测速度达到毫秒级响应 ➢支持段落、句子检测,支持超长文章:学位论文、图书专著检测。
总章节数则是指学位论文总的章节数(对于不按 章节显示,而是按照固定长度切分的论文,每一 切分段落为一章节)。
首部重合文字数、尾部重合文字数
首部重合文字数指学位论文前1万字中重合的文字 数量。
尾部重合文字数是指除去前1万字,剩下的部分中 重合的文字数量。
对于学位论文,一般开头部分均是综述性的报告 介绍,其重要性远低于论文尾部。
段落最大重复字数、段落最小重复字数
论文所有段落中,每一段落最大的段文字数比较 ,最大的为段落最大重复字数
论文所有段落中,每一段落最大的段文字数比较 ,最小的为段落最小重复字数
反应每一切分段落是否都有较严重的文字复制情 况。
子检测指标
文字复制比(TR) 重合字数(CNW) 最大段长(LPL) 平均段长(APL) 段落数(PN) 段文字比(PR) 首部复制比(HR) 尾部复制比(ER)
段落数(PN)
每一章节中,所有段的数量为段落数。 平均段长和段落数反映了重合文字在文献
文字复制比(TR)
文字复制比是指论文的每一章节与比对文 献重合文字在该章节中所占的比例。比例 越高,反映该章节越多的文字来自于其他 已发表文献。
文字复制比(TR)
反映该章节“抄袭”总文字数量比例。 一般来说,文字复制比越高,存在学术不
端行为的可能性越大。
重合字数(CNW)
论文每一章节与比对文献重合的总字数。 不管文字复制比如何,重合字数越多,存
在学术不端行为的可能性越大。
最大段长(LPL)
论文每一章节中,当连续文字超过一定比 例时,称之为段,与比对文献重合的最大 段长度即为最大段长。
反映成段抄袭特征。一般连续200以上文字 为抄袭段。
连续的文字越长,抄袭的可能性越大。
平均段长(APL)
论文每一章节中,所有段的长度的平均值 即为平均段长。
大纲
一.引入学术不端行为检测的必要性与紧迫性 二.实施学术不端检测的可行性:原理与方法介绍 三.TMLC系统主要功能演示介绍 四.应用推广情况介绍与用户反馈意见分析 五.TMLC系统服务模式介绍 六.下一步工作计划
政策的必要性
引入学术不端检测的必要性
培养良好的科研诚信对于研究生的一生至关重要
可行性分析(2)
技术可行性
CNKI自适应多阶指纹分析技术(AMLFP) TPI文本数据库加工技术 KBase全文数据库管理系统 SmartTextMiner知识挖掘技术 NLPE中文自然语言处理技术
CNKI自适应多阶指纹分析技术 (AMLFP)工作原理
检测文献
基于AMLFP的 文献快速比对
总文字复制比
总文字复制比则是指学位论文中总的重合字数 在总的论文字数中所占的比例。通过该指标, 我们可以直观了解到重合字数在该检测学位论 文中所占的比例情况。
总文字数
指该检测论文所有包含的字数,文字复制比与 总文字数的乘积即为重合字数。
疑似章节数、总章节数
疑似章节数是则检测论文疑似存在学术不端行为 的章节的数量。
➢支持改写、组合等多种类型学术不端行为检测
待检测 论文
检测系统框架
比对
文章特 征库
Yes 重复内容
No
抄袭
伪造 篡改
文章比对库 期刊 会议
学位论文 专利 报纸 图书 工具书
注册文 章
事实数据库 学者规范数据 科研规范机构
科研成果 引文统计
专家复合审查
检测指标设计
设计原则
针对学位论文是超长文献的特殊性,设计了一 套总指标与子指标相结合的检测评估体系。
总检测指标
学位论文一般篇幅较长,检测系统会自动按章 节切分(无章节信息则按字数切分)。
总检测指标指对论文全貌的检测描述。
子检测指标
对于学位论文每一章节,检测系统对每一章节 均生成一套指标系数。详细描述每一章节的检 测情况。
总检测指标
总重合字数(CCA) 总文字复制比(TTR) 总文字数(TCA) 疑似章节数(QCA) 总章节数(TCA) 首部重合文字数(HCCA) 尾部重合文字数(ECCA) 段落最大重复字数(MAXA) 段落最小重复字数(MINA)