紫牛新闻客户端1小时前
5月17日,据外媒LiveScience报道,爱丁堡大学研究团队在2025年国际学习表征会议(ICLR)上展示的一项最新研究揭示,主流人工智能(AI)模型在基础时间认知任务上表现显著不足。
研究人员向Meta的Llama 3.2-Vision、Google的Gemini 2.0、OpenAI的GPT-4o等多模态大语言模型(MLLM)投喂时钟和日历图像数据集,结果显示,AI读取时钟时间的正确率仅为38.7%,计算日期如“一年中的第153天是星期几?”等任务的正确率更低至26.3%。
研究指出,这些人类从小便掌握的基础技能,暴露了AI在空间推理、逻辑计算和训练数据覆盖方面的缺陷。
“大多数人从小就能辨别时间和使用日历。但人工智能在执行人类基础技能上存在巨大差距。”该研究的主要作者、爱丁堡大学研究员罗希特·萨克森纳(Rohit Saxena)指出,AI之所以在这些基础任务中频繁出错,核心原因在于其“预测输出”的机制与人类“规则化推理”的本质差异。
例如,读取时钟需要结合视觉感知与几何逻辑(如判断指针重叠角度、解析罗马数字刻度),而 AI 仅能通过训练数据中的模式识别 “这是一个时钟”,却缺乏解析指针位置对应时间的空间推理能力;在日历计算方面,在面临“一年中第153天星期几?”这样的问题时,由于大语言模型(LLM)依赖训练数据中的模式来预测输出,而非通过数学运算,导致如“闰年”等规则无法与具体任务关联,即便大语言模型可以解释闰年的概念,但AI也难以在视觉任务中应用。
该研究为AI在时间敏感场景中的应用敲响了警钟。萨克森纳强调,如果现实世界中的调度、自动化和辅助技术依赖AI进行时间或日期判断,可能因模型错误引发连锁风险。为此,研究者建议,AI模型的训练数据中需要增加更有针对性的例子,并重新思考人工智能如何处理逻辑和空间推理的结合的必要性,特别是在它不常遇到的任务中。
编辑 : 郭凤
奔流新闻线索报料方式
热线:13893646444(微信同号)
拍客:benliunews@163.com