HERE与AWS达成百亿美元合作,重塑汽车行业AI地图技术
HERE Technologies与亚马逊云服务(AWS)签署十年期100亿美元合作协议,旨在推动汽车行业创新,特别是软件定义车辆的开发。合作将利用HERE的AI和机器学习模型以及AWS的云能力,为汽车制造商提供先进的定位软件,助力ADAS系统发展。HERE推出的SceneXtract工具结合高清实时地图和AWS的生成AI,降低测试成本。同时,HERE的AI助手利用生成AI模型,提供个性化旅行规划,优化EV路线,提升车辆安全性。此外,双方还合作推出运输和物流解决方案,优化供应链,增强货物追踪,支持可持续发展目标。
Tim Brooks 转战 DeepMind,助力打造新一代世界模型团队
AI 领域再掀人才争夺战,Tim Brooks 短暂效力 Sora 三月后,转投 Google DeepMind。Sora 技术挑战重重,尤其在生成速度和性能上不敌同行,如 Luma、Stability、Runway。Brooks 的跳槽被视为寻求更大发展空间,或参与 Google 的视频生成项目 Veo。
Brooks 的加盟预示着 DeepMind 在视频生成和世界模型领域的新动向。他将领导新团队,开发模拟现实的大规模生成模型,与 Gemini、Veo 和 Genie 团队协作,解决新问题。招聘信息透露,Brooks 正招募研究人才,年薪136,000至245,000美元。
AI 技术进步引发创意行业忧虑,游戏公司裁员依赖AI提升效率。《Wired》调查显示,虽有担忧,但初创如 Odyssey 仍希望与创意人士合作。Google 通过世界模型探索 AI 与人类创意的共生之路,未来可期。
NVIDIA 在CES发布Cosmos平台,推动物理AI系统进步
2025年CES上,NVIDIA推出Cosmos平台,旨在加速自主驾驶和机器人领域的物理AI系统开发。Cosmos整合了生成式世界基础模型、视频标记器、安全机制和数据处理管道,减少对真实数据的依赖,优化AI模型创建。
Cosmos将通过Hugging Face和NVIDIA NGC提供,后续推出优化NIM微服务,并通过NVIDIA AI企业软件平台提供支持。CEO黄仁勋表示,Cosmos旨在普及物理AI开发,让更多开发者使用通用机器人技术。
Cosmos能根据文本、图像和传感器数据生成高清视频,适用于多种应用。NVIDIA还推出NeMo Curator视频处理管道和Cosmos Tokeniser视觉数据压缩工具。Agility Robotics的CTO Pras Velagapudi认为,Cosmos有助于减少对真实数据捕获的依赖。
多家公司如Agile Robots、XPENG、Waabi和Uber已采用Cosmos进行AI开发。Uber CEO Dara Khosrowshahi表示,生成式AI将推动未来出行发展。
此外,NVIDIA还推出了适用于医疗、金融和制造行业的Llama Nemotron和Cosmos Nemotron模型。
传音控股携手阿里云,AI大模型助力TECNO手机
传音控股与阿里云合作,将通义千问大模型集成至TECNO品牌AI手机PHANTOM V Fold2,实现深度本地化AI应用。用户通过AI按键即可离线运行多轮对话,享受文档摘要、通话摘要等服务。传音与阿里云在模型压缩、工具链优化等方面创新,借助MNN-LLM推理引擎,实现大模型在手机上的高效运行。
MediaTek已在天玑9300芯片部署该模型。传音加速端侧AI布局,探索大模型与影像AIGC、小语种语音技术结合。传音致力于AI功能深化,推动与本地生活融合。阿里云将持续与传音合作,将更多模型部署云端,提供个性化智能体验。
英伟达CES2025推出全球最小AI超级计算机Project Digits
在CES2025上,英伟达推出全球最小个人AI超级计算机Project Digits,预计5月上市。这款台式机搭载GB10Grace Blackwell超级芯片,包含Blackwell GPU和最新CUDA核心、第五代Tensor Cores,能处理2000亿参数。标配128GB内存和最高4TB NVMe存储,保证高效数据处理。
Project Digits可轻松扩展,两台设备连接即可构建强大计算集群,应对超大型模型。它满足数据科学家和AI研究者的需求,也为深度学习爱好者提供平台。用户可在个人工作空间进行本地开发测试,加速创新,参与AI技术前沿实践。
Project Digits在实际应用中表现出色,搭配Nvidia AI Enterprise软件套件,简化AI模型开发、测试和部署流程,为用户带来高效便捷的体验。
Wonderland技术革命:单图秒变高质量3D场景
长期以来,从单张图像生成高质量3D场景一直是个挑战。传统方法要么依赖多视角数据,要么耗时优化,且在背景和未见区域重建上存在缺陷。Wonderland技术的出现改变了这一现状,它能仅凭单张图像高效构建基于点云的3D场景表示(3DGS)。
Wonderland利用视频扩散模型的3D理解能力,直接从视频潜在空间构建3D表示,大幅降低内存需求。其创新点包括:
利用视频扩散模型的生成先验知识,保持新视角合成中的3D一致性。
双分支条件机制实现精确相机运动控制,将单张图像扩展为多视角一致捕捉的3D场景。
通过LaLRM模型将视频潜在空间转换为3DGS,实现高效3D重建。
Wonderland在多个基准数据集上性能优于现有方法,能处理广阔视角和多样化场景,甚至超越对象级别重建。其流程是:首先,视频扩散模型生成3D感知的视频潜在空间;然后,LaLRM模型利用该空间构建3D场景。
此外,Wonderland采用渐进式训练策略,提高模型性能。实验证明,Wonderland在视觉质量、相机引导精度和3D场景生成方面均优于竞品,且生成速度快,仅需5分钟。
Wonderland的突破性技术,不仅提升了3D重建效率,还确保了高质量场景生成,为单张图像3D场景构建带来新可能。论文详情请访问:https://arxiv.org/pdf/2412.12091。
Timekettle发布Babel OS:重塑AI同声传译,实现实时多语言交流
Timekettle,全球翻译设备领导者,今日推出了革命性的人工智能翻译操作系统Babel OS,大幅提升了其产品线的翻译性能。Babel OS采用AI语义分割技术,通过HybridComm支持,实现几乎零延迟的实时翻译,支持超过40种语言,并能模仿用户的语调和情感,让交流更加自然。
"Timekettle一直是硬件创新的先锋,Babel OS将我们的翻译技术提升到新高度,融合了速度、准确性和个性化体验," CEO Leal Tian说道。
Babel OS特色功能包括自定义词典系统,用于创建行业特定词汇库,以及先进的语音克隆技术,保留说话者独特语调。AI Edge解决方案提供离线翻译,保障无网络环境下的沟通,同时系统遵循GDPR标准,确保用户隐私安全。
Babel OS现已上市,搭载于Timekettle全系列产品,包括W4Pro耳塞、WT2Edge/W3耳塞、X1翻译中心,以及T1和T1Mini手持翻译器。自2016年成立以来,Timekettle已服务超过40万用户,致力于通过技术创新促进全球沟通。搭载Babel OS的设备可通过官网和亚马逊购买,并将通过免费OTA更新持续进化。
更多AI行业最新资讯新闻信息请关注AI人工智能网站--AITOP100平台--AI资讯专区:https://www.aitop100.cn/infomation/index.html