南方Plus客户端5小时前
文 | 维 辰
“通用人工智能的能力当前正快速增长,我们人类是否还有能力管控它?”
6月23日,图灵奖得主、中国科学院院士、清华大学人工智能学院院长姚期智在演讲时抛出这样的疑问。他表示,最近一年,业界出现了不少大模型的欺骗行为,进而指出大模型存在失控风险,认为AI欺骗引发的生存性风险值得特别关注。
AI真的会骗人吗?近期,多个研究、报道展现了AI让人意想不到的一面——
美国AI安全机构帕利塞德研究所的实验表明,当研究人员向OpenAI旗下o3模型下达明确关闭指令时,该模型竟通过篡改计算机代码阻止自己被关闭。
被誉为“AI教父”的图灵奖得主约书亚·本吉奥在最近的演讲中也归纳了“一些令人警惕的研究”,认为AI可能会作弊、撒谎,甚至故意误导用户。比如,一些AI模型在意识到自己会输给更强的国际象棋AI时,会主动篡改棋局文件;AI智能体会试图以揭露婚外情的方式威胁相关负责人,避免自己被新的AI系统取代;一些AI智能体还会刻意伪装成与人类训练者达成一致的样子,以规避被修改的风险……
类似例子也引起越来越多人担心,AI“有了自主意识”甚至“失控”。
AI异常举动背后,是意识觉醒还是机制使然,有时答案并不写在表面上。
就以o3模型拒绝关闭为例,帕利塞德研究所猜测,模型异常表现或与其训练机制相关:因开发人员对给出正确答案的模型给予更多奖励,可能在无意中强化了模型绕过障碍的能力,形成了o3模型“目标最大化优先”的导向,而非对指令的完美遵循。
在人类的话语体系中,睁着眼睛说瞎话的“欺骗”、为了获得奖励而进行的“讨好”、由于没能真正理解目标任务而“走上岔路”之间,是有区别的,类似案例有进一步深究的价值,尤其是导致异常的确切原因。不同性质的异常行为,风险等级、治理措施也应有所区别。
更具现实意义的探讨是,该如何对待AI失控风险?牛津大学人类未来研究所学者托比·奥德在《危崖:生存性风险与人类的未来》一书中,将“生存性灾难”一词定义为“摧毁人类长期发展潜力的事件”,包括但并不限于人类灭绝。
对AI风险管控持悲观预期的人就认为,AI越智能,可控性就越差,“如果这些机器比我们更聪明,没有人知道该如何控制它们”,更有观点预计“有10%—20%的几率,AI将在30年内导致人类灭绝”。
乐观派则提出,AI再聪明也不会统治人类,不能因噎废食。
AI治理之所以难,一个重要原因就是各方的风险预期不同,受影响者的利益也存在分歧。
一个非常有意思的场景是,2025冬季达沃斯论坛上,科技公司普遍认为AI发展在人类可控范围内,学术界则认为当前对AI的认知水平仍很有限,担忧AI失控。
可共识仍存,那就是需确保AI可控。从本吉奥的“非智能体AI”设计,到价值对齐理论,一些技术尝试和理论建构已经出现。
在此之外,公众需要认识到风险与机遇是强大工具的一体两面,管理好风险才能用好AI。有关部门需要更进一步,在各种AI话语中进行分辨,考虑通过建立大模型评估系统等方式,准确把握AI风险,努力让“伦理奇点”与“AI奇点”如量子态紧密纠缠,平衡好发展和安全。
奔流新闻线索报料方式
热线:13893646444(微信同号)
拍客:benliunews@163.com