每日AI资讯-01月21日-AITOP100,AI资讯

创新技术突破：智能图像适配解决方案，一键优化多设备显示

在数字时代，图像在各种设备上的适配问题备受关注。阿联酋沙迦大学的科研人员近日推出了一项创新技术，利用深度学习模型自动调整图像尺寸，确保在各种屏幕上的完美呈现。

该技术依托转移学习，采用Resnet18、DenseNet121和InceptionV3等先进模型。传统图像重定向技术往往需要人工介入，容易造成图像裁剪或失真。新研究旨在通过自动化手段，减少信息损失，保持图像原貌。

研究团队构建了一个包含46,716张不同分辨率图像的数据集，涵盖六种重定向技术类别。实验中，他们将类别信息作为额外输入，并将分辨率信息编码为图像的新通道。评估结果显示，该方法在重定向技术选择上达到了90%的最佳F1分数，证明了其高效性。

深度学习技术的应用，使得图像特征提取和复杂关系捕捉更加精准，从而提升了图像重定向的分类准确性。尽管商业化应用尚待时日，研究团队正致力于进一步研究，以期实现完全自动化的图像重定向模型。未来，他们还计划扩展数据集，增加样本和重定向方法，以提高模型的精确度和适应性。

这项研究为图像处理领域带来了革新性进展，期待不久的将来，我们能享受到更加智能和高效的图像适配体验。

创新技术突破：智能图像适配解决方案，一键优化多设备显示

腾讯发布混元3D AI引擎，高效打造精致3D模型

腾讯今日推出了一款革命性的混元3D AI创作引擎，助力用户通过简单的提示词或图片快速生成高品质3D模型。这款引擎融合了全面的3D功能、编辑工具、生成流程以及丰富的素材库，极大地简化了设计师和创作者的工作流程。

借助混元3D AI创作引擎，用户仅需输入如“圆形棕色长形沙发”或“大眼睛深棕色猫头鹰”等描述，即可轻松获得相应的3D模型，并支持多种风格选择和主流3D文件格式（glb、fbx、obj）下载。

引擎还提供了3D动画制作、草图生成和3D小游戏开发等多种功能，极大地提高了创作效率。混元3D AI创作引擎的核心——Hunyuan3D-2.0模型，在几何构造和纹理色彩生成方面相较于1.0版本有了显著提升，采用领先的评估标准，确保行业领先地位。

该引擎在工业制造、电商广告、3D打印和游戏制作等多个领域具有广泛的应用潜力，为设计师和企业提供了快速实现3D商品模型和原型设计的创新途径。用户能够轻松生成具有特定风格和特征的3D资产，有效降低创作难度，提高作业效率。

腾讯混元3D AI引擎工具地址：【点击登录】

腾讯发布混元3D AI引擎，高效打造精致3D模型

百度文库AI功能用户激增，月活超9000万，付费用户超4000万

在最近的百度AI开放日上，百度副总裁兼文库、网盘事业部主管王颖公布了百度文库AI功能的用户数据。百度文库AI功能的月活跃用户已超过9000万，日活跃用户同比增长达230%，付费用户数量也突破了4000万，凸显了该平台AI功能的巨大吸引力。

过去一年，百度文库增添了超过100项AI功能，包括多种创新工具，以迎合用户在文档处理、学习和创作等方面的需求。例如，智能PPT功能可以基于一句话自动创建PPT，并提供一键美化草稿PPT的功能，极大地简化了演示文稿的制作。AI全网搜功能不仅能提供信息，还能将素材整理成时间线、思维导图和对照表，助力用户高效处理和理解信息。智能有声画本则让家长能够为孩子定制个性化的教育内容，增强互动性。

此外，百度文库宣布“自由画布”功能正式开启公测。用户通过简单的“一拖+一圈”操作，就能将网盘、本地文件和各种公域素材（如Word、TXT、PDF、音视频等）拖入画布，随后利用AI进行智能创作。与传统单线操作不同，“自由画布”支持多任务并行处理，使得创作过程更加高效便捷，进一步提升了用户体验。

百度文库AI功能用户激增，月活超9000万，付费用户超4000万

谷歌即将发布升级版Gemini AI模型，推理透明度显著增强

谷歌宣布将于2025年1月23日推出升级版的AI模型——Gemini2.0Flash Thinking Exp-0123。这一升级模型在原有Exp-1219的基础上，重点提升了推理能力和思维过程的透明度。

Gemini2.0的革新之处在于其能够展示AI的“思考过程”，这一特性将极大便利开发者和研究人员的工作。通过Google AI Studio的集成，开发者可以更高效地处理复杂任务，推动项目发展。谷歌强调，新模型的使用将让用户更直观地理解AI的决策逻辑，增强人机互动体验。

在AI技术竞争激烈的当下，Gemini2.0的推出是谷歌巩固市场领导地位的关键一步。谷歌CEO指出，Gemini的能力已超越众多对手，并计划年底前用户数达到5亿。

谷歌还在整合其AI团队，以提高研发效率，加速技术进步。此外，谷歌新成立的团队专注于开发模拟物理世界的AI技术，展现了其在AI领域的远大志向。

Gemini2.0的推出预示着将为开发者和研究人员带来新机遇，并为用户提供更透明的AI思维路径，期待其能为科技行业带来创新和突破。

谷歌Gemini2.0 AI工具地址：【点击登录】

谷歌即将发布升级版Gemini AI模型，推理透明度显著增强

月之暗面推出k1.5模型：多模态推理迎来全新升级

月之暗面公司近日宣布推出新一代SOTA模型——k1.5多模态思考模型，这一突破性进展显著提升了多模态推理和通用推理的性能。k1.5模型以其卓越的多模态处理和推理能力，轻松应对多样化的复杂任务。

k1.5模型的核心优势在于其多模态推理功能，能够同步分析文本、图像、声音等多种信息，提供全面而精确的理解。在视觉问答、视觉常识推理等领域，k1.5表现尤为抢眼，能够结合图像和文本数据进行深入分析，给出精准答案。

此外，k1.5模型的通用推理能力同样强大，适用于多种应用场景，从编程到数学问题求解，再到日常工作任务处理，都能提供有效支持。这种多用途性预示着k1.5在多个行业的广泛应用潜力。

目前，k1.5模型的预览版已在Kimi.com网站和Kimi智能助手App的最新版本中逐步推出。用户只需找到模型切换按钮，即可体验这一创新功能。月之暗面公司通过k1.5模型的推出，再次证明了其在AI领域的领先地位和创新精神。

展望未来，随着多模态技术的不断发展，k1.5模型预计将推动更多行业变革，提升人机交互体验。月之暗面将继续推动AI技术进步，助力全球数字化转型进程。

kimiAI工具地址：【点击登录】

月之暗面推出k1.5模型：多模态推理迎来全新升级

限时免费体验！智谱清言上线AI视频生成工具清影2.0

北京智谱华章科技在2025年1月21日推出了全面升级的AI生视频产品——清影2.0，这一更新带来了显著的技术进步和功能增强。

清影2.0在模型架构、训练策略和数据优化方面进行了全面提升，性能增加38%，使得生成的视频动作更流畅、画质更细腻、控制更稳定。用户只需简单输入提示词，就能实现视频中主体的大幅度动作，同时保持画面稳定。例如，清影2.0能生动展现男子从海报中走出并整理领带的连贯动作，体现了其在动作连续性和画面稳定性上的先进性。

清影2.0在遵循指令方面保持行业领先，不仅能精确执行复杂提示，还能融入创意，为视频注入新活力。如，它能根据提示生成小狗将锅放到灶上并搅拌的场景，保持风格和氛围的一致性，确保故事连贯。

在艺术风格和美感方面，清影2.0同样表现出色，能够轻松驾驭写实、三维动画、二维动画等多种风格。无论是动态全家福还是小鸟与大熊猫的互动场景，清影2.0都能生成风格统一、画面精美的视频。

现在，清影2.0已全面登陆智谱清言平台，用户可通过网页端或APP端免费体验这一创新功能。抓住机会，即刻开启你的AI视频创作之旅！

智谱清影2.0 AI工具地址：【点击登录】

限时免费体验！智谱清言上线AI视频生成工具清影2.0

中国科研突破：VideoChat-Flash技术，长视频处理速度飞跃100倍

面对长视频理解的挑战，中国科研团队创新推出VideoChat-Flash技术，大幅提升处理效率。通过HiCo技术，团队成功压缩视频冗余信息，降低计算需求，同时保留关键上下文。

VideoChat-Flash采用层次化压缩，将长视频分割为短片段，减少标记数量，提升上下文窗口宽度，增强处理能力。结合用户查询语义关联，进一步降低视频标记数量。

研究团队实施了一种多阶段学习方案，从短视频监督微调开始，逐步引入长视频训练，构建了包含30万小时视频和2亿字注释的大数据集，全面提升了模型的视觉感知和数据支持。

此外，研究提出了改进的“干草堆中的针”任务，提升模型对多跳视频配置的上下文理解。实验证明，VideoChat-Flash在计算效率上提升两个数量级，短视频和长视频基准测试中表现卓越，成为短视频理解领域的新标杆，并在长视频理解上超越了现有开源模型。

中国科研突破：VideoChat-Flash技术，长视频处理速度飞跃100倍

更多AI行业最新资讯新闻信息请关注AI 人工智能网站--AITOP100平台--AI资讯专区：https://www.aitop100.cn/infomation/index.html