Meta AI创新MILS：多模态AI的新突破，无需训练也能理解图像、视频和音频-AITOP100,AI资讯

Meta AI引领多模态AI新潮流：MILS系统革新模型理解能力

Meta AI的研究人员，携手学术界伙伴，共同推出了一项突破性技术——多模态迭代LLM求解器（MILS）。这一创新系统无需经过大量的数据训练，便能赋予大型语言模型处理图像、视频和音频数据的强大能力。MILS充分利用了语言模型本身固有的问题解决技巧，而非依赖于海量数据学习，从而凸显了其独特的优势。

MILS的核心机制在于构建一个由两个AI模型组成的协作体系：一个是“生成器”，负责生成解决任务的方案；另一个是“评分器”，用于评估生成方案的有效性。评分器提供的反馈信息驱动生成器不断改进答案，直至获得满意的结果。以图像描述任务为例，MILS能够逐步完善图像描述，精准地捕捉不同层次的图像细节。

特别是在图像描述领域，MILS表现出了卓越的性能。通过采用Llama-3.1-8B模型作为生成器，CLIP模型作为评分器，MILS能够生成与当前领先方法相媲美，甚至更为详尽的图像描述。值得注意的是，CLIP模型并未接受专门针对图像描述任务的训练。此外，MILS还通过微调文本提示，增强了文本到图像的生成能力，并能将AI生成的提示与图像处理工具相结合，从而实现风格转换等复杂的图像编辑任务。

图像描述的精度随着生成器和评分器迭代次数的增加而提高。| 图片来源: Ashutosh 等人

MILS的功能范围远不止于图像处理，它还成功地扩展到了视频和音频领域。在使用MSR-VTT视频数据集进行测试时，MILS在视频内容描述方面的表现超越了现有模型。由于MILS在运行过程中不会修改模型参数，它可以将不同类型的数据转化为易于理解的文本，并支持将来自图像、音频等多种来源的信息整合并转化为所需的格式，为多模态信息融合应用开启了新的可能性。

实验数据表明，使用更大的生成器和评分模型能够产生更准确的结果，并且增加潜在解决方案的数量可以显著提升性能。研究人员还观察到，扩展到更大规模的语言模型不仅提高了结果的质量，还带来了性能上的显著提升。

风景描述从简单的基本特征逐步演变为具有更精确细节和更多自然元素的复杂景观表述。

MILS所采用的这种创新策略，与当前人工智能领域朝着更智能推理能力发展的趋势高度契合。Meta团队还指出，MILS未来有望在3D数据处理等领域展现出巨大的潜力，从而进一步推动多模态AI的蓬勃发展。

随着OpenAI的GPT-4和其他开源替代方案（如Meta的Llama3.2、Mistral的Pixtral以及DeepSeek的Janus Pro等）的快速发展，这些新兴的多模态AI系统正在加速它们在日常生活中的应用，并为人工智能的未来发展奠定了坚实的基础。

更多AI行业最新资讯新闻信息请关注AI 人工智能网站--AITOP100平台--AI资讯专区：https://www.aitop100.cn/infomation/index.html