Hugging Face SmolVLM：小体积蕴藏大能量，AI模型新突破-AITOP100,AI资讯

Hugging Face 推出突破性AI模型 SmolVLM

人工智能领域迎来重大突破！Hugging Face 近期发布了一款名为 SmolVLM 的新型视觉语言模型。这款模型最引人注目的特点在于其体积小巧，可以在手机等小型设备上流畅运行，同时性能却超越了以往需要大型数据中心支持的巨型模型，为AI的实际应用开启了新的篇章。

SmolVLM-256M 模型仅需不到 1GB 的 GPU 内存，却展现出了超越其前代 Idefics80B 模型的性能。要知道，Idefics80B 的模型大小是 SmolVLM 的 300 倍！这一成就标志着人工智能在实用性部署方面取得了显著进展。Hugging Face 的机器学习研究工程师安德烈斯・马拉菲奥提指出，SmolVLM 模型的推出为企业带来了显著的计算成本节约。“我们之前发布的 Idefics80B 在2023年8月是首个开源的视频语言模型，而 SmolVLM 的推出则实现了300倍的体积缩减，同时性能提升。” 马拉菲奥提在接受《创业者日报》采访时表示。

成本降低，效率提升

在企业面临人工智能系统实施成本高昂的关键时期，SmolVLM 的出现恰逢其时。该模型提供 256M 和 500M 两种参数规模，能够以惊人的速度处理图像和理解视觉内容。其中，最小的版本处理速度可达每秒 16 个实例，仅需 15GB 内存，这对于需要处理大量视觉数据的企业而言，无疑是巨大的福音。以每月处理 100 万张图片的中型公司为例，使用 SmolVLM 可以显著降低年度计算成本。

IBM 合作，加速落地应用

值得一提的是，IBM 也与 Hugging Face 展开合作，将 256M 模型集成到其文档处理软件 Docling 中。即使 IBM 拥有强大的计算资源，采用更小的模型仍然能以更低的成本高效处理海量文档，体现了 SmolVLM 在实际应用中的价值。

技术创新，成就卓越性能

Hugging Face 团队通过在视觉处理和语言组件上的技术创新，成功实现了模型体积的缩减，同时保证了性能不打折扣。他们将原有的 400M 参数视觉编码器替换为 93M 参数版本，并采用了更先进的令牌压缩技术。这些创新不仅降低了小型企业和初创公司的入局门槛，也让它们能够在短时间内推出复杂的计算机视觉产品，并大幅降低基础设施成本。

庞大训练数据集，拓展应用场景

SmolVLM 的训练数据集包含了 1.7 亿个训练示例，其中近一半用于文档处理和图像标注。这些进步不仅降低了成本，还为企业带来了全新的应用可能性，使得企业在视觉搜索方面的能力得到了前所未有的提升。

重新定义模型大小与能力的关系

Hugging Face 的这一突破挑战了传统观念中模型大小与能力之间的联系。SmolVLM 证明了小型高效的架构同样能够实现卓越的性能，未来的 AI 发展方向或许将不再是盲目追求更大的模型，而是更加注重灵活高效的系统。这一进展预示着，AI的未来充满了更多可能性。

模型地址：https://huggingface.co/blog/smolervlm

更多AI行业最新资讯新闻信息请关注AI 人工智能网站--AITOP100平台--AI资讯专区：https://www.aitop100.cn/infomation/index.html