论文AI检测,正在逼疯这届大学生
图片来自:小红书@Darer
在就业市场都要求这些应届生要掌握 AI 技能的当下,合理地使用 AI 反而应该是大学教育里要给出引导,而非与 AI 彻底切割。
搞懂 AIGC 检测的基本逻辑
AIGC 检测结果为什么总像是随机生成的?它的检测逻辑究竟是什么?毕竟只有理解它的原理,才能在“降 AI”时对症下药。
传统的论文查重主要是与已有文献数据库进行比对,查重报告会明确告诉你是哪些段落和哪篇文献重复了。
所以对于传统“降重”,前人已经摸索出一套有效的“打法”,比如改写句子结构、同义词替换、翻译成小语种再翻译回中文……总之,只要能避开与已存在文献的重复,就能过关。
但到了 “降 AI ”这里,这些已有的经验似乎都失灵了:
AIGC 检测更像一个黑箱,标准不明。目前任何一种检测手段都无法保证 100% 判定哪个是 AI 写的,哪个是人类写的。因此,检测系统通常都会给出一个 AIGC 疑似值。

虽然说这只是“疑似度范围”,系统也声明“检测结果与论文质量无关”,但一旦超过某个数值,论文就会实打实地不通过啊,让人有种无处申诉的无力感。
去年人大新闻学院副教授董晨宇也要在 AIGC 检测中被迫“自证清白”:他的研究团队的一篇耗时三年、基于真实案例撰写的关于直播产业的研究论文,却被某论文检测平台标注为“高度疑似AI生成”。

:https://www.bilibili.com/video/BV1WK7fzNEa5/?spm\_id\_from=333.337.search-card.all.click&vd\_source=2304bb3a0ff80390775707914f5ee0ed
所以,AIGC 检测真的就是“黑箱”吗?它的基本逻辑究竟是什么?
基于知网在 2023 和 2024 年发布的两个专利,我们也可以总结目前知网 AIGC 检测的底层逻辑和流程:
第一阶段:信息量差值检测(基于 2023 年专利)
输入文章,按学科分类
用大语言模型改写文章,计算原文与改写版的信息量
差值差值小 → 可能 AI 生成;差值大 → 可能人类写作
第二阶段:多特征分析(基于 2024 年专利)
使用文本分类模型计算 AI 生成概率
分析逻辑偏离度、词汇扩散度、句子长度、字词分布等特征
[物价飞涨的时候 这样省钱购物很爽]
无评论不新闻,发表一下您的意见吧
在就业市场都要求这些应届生要掌握 AI 技能的当下,合理地使用 AI 反而应该是大学教育里要给出引导,而非与 AI 彻底切割。
搞懂 AIGC 检测的基本逻辑
AIGC 检测结果为什么总像是随机生成的?它的检测逻辑究竟是什么?毕竟只有理解它的原理,才能在“降 AI”时对症下药。
传统的论文查重主要是与已有文献数据库进行比对,查重报告会明确告诉你是哪些段落和哪篇文献重复了。
所以对于传统“降重”,前人已经摸索出一套有效的“打法”,比如改写句子结构、同义词替换、翻译成小语种再翻译回中文……总之,只要能避开与已存在文献的重复,就能过关。
但到了 “降 AI ”这里,这些已有的经验似乎都失灵了:
AIGC 检测更像一个黑箱,标准不明。目前任何一种检测手段都无法保证 100% 判定哪个是 AI 写的,哪个是人类写的。因此,检测系统通常都会给出一个 AIGC 疑似值。

虽然说这只是“疑似度范围”,系统也声明“检测结果与论文质量无关”,但一旦超过某个数值,论文就会实打实地不通过啊,让人有种无处申诉的无力感。
去年人大新闻学院副教授董晨宇也要在 AIGC 检测中被迫“自证清白”:他的研究团队的一篇耗时三年、基于真实案例撰写的关于直播产业的研究论文,却被某论文检测平台标注为“高度疑似AI生成”。

:https://www.bilibili.com/video/BV1WK7fzNEa5/?spm\_id\_from=333.337.search-card.all.click&vd\_source=2304bb3a0ff80390775707914f5ee0ed
所以,AIGC 检测真的就是“黑箱”吗?它的基本逻辑究竟是什么?
基于知网在 2023 和 2024 年发布的两个专利,我们也可以总结目前知网 AIGC 检测的底层逻辑和流程:
第一阶段:信息量差值检测(基于 2023 年专利)
输入文章,按学科分类
用大语言模型改写文章,计算原文与改写版的信息量
差值差值小 → 可能 AI 生成;差值大 → 可能人类写作
第二阶段:多特征分析(基于 2024 年专利)
使用文本分类模型计算 AI 生成概率
分析逻辑偏离度、词汇扩散度、句子长度、字词分布等特征
[物价飞涨的时候 这样省钱购物很爽]
| 分享: |
| Note: | _VIEW_NEWS_FULL |
| 延伸阅读 |
推荐:
论文AI检测,正在逼疯这届大学生