虽然高校会为学生分配毕业论文指导老师,但是对于部分毫无论文写作经验的本科生而言,基础问题不好意思提问,专业的表达很难临时抱佛脚。这时,永远在线,永远有问有答的 AI,成为他们最好的指导老师。
AI 检测到底有多玄学?为了体验易肖竹和刘鑫宇检测过程中的同款迷惑,澎湃新闻记者将一篇完全由 AI 生成的论文提交到四个高校常用的 AIGC 检测系统进行检测,发现这些平台由于模型差异,对于论文中 AI 生成占比的认定差异较大。同一篇论文,AI 占比最多能相差 32%,尽管这四个结果放在高校的毕业论文要求里都是不合格的水平。
除了类似“AI 检测率”这样的硬指标划定,国内一些高校也在探索其他规范使用 AI 的方式,比如中国传媒大学继续教育学部设计了《本科毕业论文(设计)生成式人工智能使用情况说明表》,由学生自主披露论文中的 AI 使用情况。
正一筹莫展时,她想起另一位和她吐槽过相同经历的同学,彼时同学已经成功通关,同学给她支了个招——用 AI 改写 AI,这一版 AI 辅助的修改文段最终通过了 AIGC 检测。
第一次修改时,她学着小红书教的方法,尽量多加介词和连接词,结果无效。于是,她改变策略,请朋友按照自己的写作习惯来改写高风险文段,但直至她检测到了第四次,文段依旧保持高风险。
但在部分国内高校的实践中,AIGC 检测率却成为比答辩还难应对的合格门槛。“AI 应该作为辅助工具,为人类创作赋能”,这是人们提起 AI 时常提的立场,当高校将 AIGC 检测结果作为评估毕业论文的硬性指标时,是否夺走了学生的解释权?这种将数据简单化为标准的方式是否也是对工具的滥用?
在“降 AI”这项工作中,刘鑫宇比易肖竹踩了更多的雷。她总共做了 9 次 AIGC 检测,问题五花八门:在格子达小程序里检测出无风险的文段,到格子达网页端又有风险了;本是“中风险”的论文,时隔九日重新提交检测时,疑似片段居然从 16 段上升至 28 段,论文重新变成了“高风险”。
困惑度可以理解为可预测性。当检测器可以准确猜测出文本的下一个词、下一句话时,文本的困惑度就越低,文章越可能被判定为 AI 生成。但这种判定方式也不一定准确,比如“我想吃一个(睡觉)”与“我想吃一个(苹果)”这种不合常理的胡言乱语,相比更有可能被判定人类所写,只因为 AI 也猜不出你接下来要说什么。
在翟天临学术不端事件后,高校加大了对学生论文重复率的检查力度。然而,AI 检测成为毕业论文的“新杀手”:从前,在“降重”时只需要将重复率高的文本替换写法,重复与否容易区分,降重目标很明确;现在,“降 AI”却如同面对黑箱,需要反复猜测 AIGC 检测的标准是什么,目标变得抽象。
在国内,知网、维普、万方等服务于大部分高校的论文检测系统,在 AI 的发展潮流下陆续上线 AIGC 检测服务,并于 2024 年论文季开始广泛实践。但无论是知网、维普、万方还是其它检测系统,其官网都很难找到关于其 AIGC 检测产品的详细介绍。在 AIGC 检测技术发展尚不成熟的阶段,部分国内高校将检测结果作为毕业论文合格的硬性门槛,对检测结果体感最强的学生被无奈地困在了迷茫的“降率”中。
在写论文的所有环节中,引用文献是 AI“幻觉”频发的重灾区。在这篇 AI 改写的论文中,引用文献共五篇,但根据记者核实,其中有三篇论文并不存在。所以,如果想让 AI 帮你搜索参考文献,要小心有胡编乱造的风险。
从改写的论文来看,AI 确实非常了解论文的谋篇布局,它甚至掌握各个专业的术语和研究方法,这意味着研究目标、研究方法这类可以依靠大数据“旧壶装新酒”的内容是 AI 的舒适区,同时也意味着 AI 很难提出新颖的思路和观点。
2023 年 3 月 16 日,Turnitin 在官网文章中提出,“鉴于我们的假阳性率不是零,您作为讲师需要应用您的专业判断、学生的知识以及围绕作业的具体背景”,在 Turnitin 看来,检测结果应该被视为一种指示,而不是指控,“我们的工作是创造方向正确的信息,供老师开启对话”,Turnitin 的首席产品官 Annie Chechitelli 在接受华盛顿邮报的采访时说道。
大小单双论坛四月底,在完成导师指导下的三轮修改后,她按照要求将论文提交至知网查重,AIGC 检测结果显示她的论文有一段 AIGC 低风险和一段高风险,“那段高风险内容我是自己写的,这个结果让我非常震惊”,那时的她还以为修改会比较简单,没想到后来“降 AI”的拉锯战竟会持续十天。
随着 AI 技术的发展,国内的论文检测系统陆续上线 AIGC 检测服务,为高校学术不端检测提供了新选项。从部分高校公开发布的毕业论文通知可以看出,高校对 AIGC 检测率的规范方式大致分为三种:影响考评、自主披露和限定占比。无论是高校公开发布的通知,抑或是流传在学生之间的学校文件,都可以感知到 AIGC 检测是毕业论文学术不端检测的大势所趋。“学校虽然没有明文规定 AIGC 检测率,但学院要求需要小于 20%,我的导师要求我们降到 5%以下”,在湖南上大学的陈慧敏如是说道。
澎湃新闻记者以澎湃美数课发布的稿件为样本(《114 万条招聘数据:考研,真的能带来好工作吗?》),请 AI 将其改写成一篇本科毕业论文。AI 拟定的标题就很有论文的派头:《考研与就业:基于招聘数据分析的研究生教育价值探究》,再往下,论文必要的引言、文献综述、研究方法等五脏俱全。难道,AI 写论文,没问题吗?
与麻省理工学院相似,杜克大学鼓励教师起草自己的 AIGC 政策。除此之外,杜克大学在面向教师发表的《人工智能政策:指导方针和注意事项》中指出,AIGC 检测软件存在系统不可靠、对部分群体存在偏见、无法跟上人工智能发展脚步的弊端,因此学校明确表示“不建议教师将 AIGC 检测器作为 AI 政策的一部分”,即使教师决定使用检测软件,也不应将检测结果作为衡量学生是否作弊的唯一标准。
虽然各校针对 AIGC 使用的政策内容不一,但内容背后折射出一个相似的价值观:人工智能的使用不仅关乎学生,也关乎教师,同时,教师承担着引导学生正确使用人工智能的角色。
爆发度可以理解为句子长度与复杂性的变化。AI 生成的句子长度与结构趋向统一,而人类作文随心所欲,动态性更强,这也是“降 AI”教程中常提的加标点符号、长句变短句的意旨。
例如,麻省理工学院邀请了四位对 AIGC 使用有所研究的本校教师发表观点,希望为其他教师提供参考。四位老师对 AIGC 的态度整体分为了支持和限制两个阵营,在文章的开头,学校保守地表示“这并不代表麻省理工学院对此的官方看法”,麻省理工学院将选择权交给了老师。
鉴于人工智能的诸多局限性,一篇内容单纯依靠 AI 生成的论文,在答辩过程中也大概率难以过关,和论文相比,AI 写的论文更像一篇有“论文味”的文章。
2023 年 7 月 20 日,OpenAI 低调关停仅上线半年的 AIGC 检测器“AI Text Classifier”,原因是“准确度较低”,但 AIGC 检测的发展步伐并未放缓。
根据国外一款 AI 检测器 GPTZero 的创始人 Edward Tian 介绍,GPTZero 的检测主要依靠于“困惑度”(Perplexity)和“爆发度”(Burstiness)两项关键指标。
在小红书搜索“如何让 AI 帮你写论文”,可以得到上至框架下至致谢的所有指令,灵感枯竭时,AI 可以分点分行快速给出回答;不会措辞?把思路丢给 AI 就能得到一段表述完整的文本——在 AI 的帮助下,学生可以大大提升写论文的效率。
这五次修改,易肖竹在 AI 检测上用了 10 天,花费了 171.5 元。但是,如何应对 AI 检测,她仍然没摸出什么门道。
相比于其他两校,波士顿大学的 AIGC 使用政策内容更为细致,该校政策认为“诚实和公平是在学业中使用人工智能的核心”,因此规定使用 AIGC 的学生需要提交一份附录详细说明作业过程中与 AIGC 的完整交流,同时,政策也对不同程度使用人工智能的学生划分了对等的赋分规范。值得提及的是,波士顿大学的 AIGC 使用政策由 47 名学生制定,政策在获得批准后应用在了整个计算和数据科学系。
今年年初,福州大学、中国传媒大学等高校陆续发布了毕业论文(设计)AIGC 检测的通知,2024 届毕业生成为 AIGC 检测元年的第一批探路者。
另一款 AI 检测产品 GPTZero 在 2023 年初刚上线时,获得了超乎意料的关注;同时,也受到了来自学生群体的攻击。然而,用检测结果来“为难”学生,并不是这款产品的初衷,创始人 Edward Tian 在推特中表示道,“任何学生都不应该因为使用 AI 而受到老师的惩罚……直到政策得到全面制定前”。因此,在 GPTZero 的检测结果页面可以看到一行字,上面写道,“这个结果不应该用来直接惩罚学生”。