MAIA 新系统亮相：洞悉 AI 模型内在机制，审查其安全性

IT之家 7 月 25 日消息，麻省理工学院计算机科学与人工智能实验室的研究人员开发了一种名为“MAIA”的多模式自动化可解释性代理系统，该系统可以使用视觉语言模型来自动执行各种神经网络可解释性任务。

麻省理工学院（MIT）计算机科学与人工智能实验室（CSAIL）最新研发了名为 MAIA 系统，可以使用视觉语言模型来自动执行各种神经网络可解释性任务。

MAIA 的全称是 Multimodal Automated Interpretability Agent，直译过来为“多模态自动可解释性代理”，主要利用视觉语言模型，自动执行各种神经网络可解释性任务，并配备了在其他人工智能系统上进行实验的工具。

研究论文的共同作者，来自 MIT CSAIL 的博士后 Tamar Rott Shaham 表示：

我们的目标是创建一个能够自主进行可解释性实验的人工智能研究人员。现有的自动可解释性方法只是在一次性过程中对数据进行标注或可视化。

另一方面，MAIA 可以生成假设，设计实验对其进行测试，并通过迭代分析完善自己的理解。

通过结合预先训练好的视觉语言模型与可解释性工具库，我们的多模态方法可以在特定模型上组成和运行有针对性地实验，来响应用户的询问，不断完善其方法，直至能够提供全面的答案。

该自动代理被证明能够完成三项关键任务：

MAIA 可以通过生成假设、设计实验来测试假设，并通过迭代分析改进其理解，从而解释人工智能模型的内部机制，帮助我们了解人工智能模型如何运作，并探究其安全性和偏差。

IT之家附上参考地址

本站部分转载文章，皆来自互联网，仅供参考及分享，并不用于任何商业用途；版权归原作者所有，如涉及作品内容、版权和其他问题，请与本网联系，我们将在第一时间删除内容！

联系邮箱：1042463605@qq.com

浙江大学一女生用AI学术造假被麻省理工退学，本人发文致歉