我们希望能够搭建一个AI学习社群,让大家能够学习到最前沿的知识,大家共建一个更好的社区生态。
https://www.feishu.cn/community/article/wiki?id=7355065047338450972
点击「订阅社区精选」,即可在飞书每日收到《大模型日报》每日最新推送
学术分析报告:ResearchFlow — 奇绩F23校友的开发的深度研究产品,PC端进入RFlow的分析报告,可直接点击节点右侧的小数字展开节点,登录后可在节点上直接“询问AI”,进一步探索深度信息
如果想和我们空间站日报读者和创作团队有更多交流,欢迎扫码。
欢 迎 大 家 一 起 交 流 !
资讯
LeCun最新访谈:距离AGI可能不到10年,下一代AI需要情感和视觉训练
在最新的访谈中,LeCun重申了他对AGI(通用人工智能)的看法,认为我们离实现AGI还有5到10年的时间,并不认同过度乐观的预测。他提到,未来的AI需要具备情感和视觉能力,能够理解物理世界,通过“世界模型”来进行推理和规划。LeCun强调,AI的情感并非像人类那样的情绪,而是与目标驱动的行为紧密相关,AI系统将能够预测自己的行为结果,从而具备类似情感的反应。
LeCun对现有的语言模型(LLM)持悲观态度,认为它们已经接近性能上限。自回归的LLM通过大量文本训练,但其规模已接近瓶颈,无法通过单纯扩大规模获得更大突破。他提到,下一代AI需要超越单纯的文本预测,能够通过查询外部数据库或搜索引擎来获得答案,并生成多种解决方案。这种新一代AI将会更智能,且每个人都可以拥有一个AI助手。
LeCun还提到,Meta的Llama模型作为开源平台,正在推动AI技术的创新,并指出开源是AI未来发展的关键,就像Linux之于互联网。他认为,Llama的开源模型将促进全球AI计算平台的建立,推动AI的快速进步,而不像封闭模型那样集中在少数公司手中。
对于AI的安全性问题,LeCun认为,开源AI模型比封闭模型更安全,因为更多人参与其中,进行审查和改进,避免了集中控制带来的风险。虽然他承认AI系统有可能被恶意使用,但Meta已经采取措施,通过Red Team测试等方式,确保发布的模型尽可能安全。
LeCun的观点强调了AI发展的长期性和复杂性,他认为AI系统的普及将不仅仅是技术进步,更是全球合作和文化多样性的体现。AI的发展应避免过度的监管,保持开源和分散的特性,以促进技术的健康成长和应用的多元化。他对未来的AI充满信心,认为全球化的AI系统将成为推动社会进步的重要力量。
Meta、斯坦福等:AI的下一个前沿,正是陶哲轩说的形式化数学推理
随着AI推理能力的提升,AI在数学推理方面的应用成为了重要研究方向。Meta和斯坦福等机构发布的立场论文《Formal Mathematical Reasoning: A New Frontier in AI》探讨了这一领域的进展与挑战。数学家陶哲轩提出,未来数学家可以通过与像GPT这样的AI互动,解释数学证明,AI会将其形式化为Lean等证明系统,极大提升数学家的工作效率。
AI4Math,作为一个专注于数学推理的AI领域,逐渐从传统符号方法转向统计式AI。尽管非形式化方法(如使用数学数据训练LLM)在高中数学问题上取得了一定进展,但对于高等数学问题,规模扩展已不再有效,问题主要集中在数据稀缺和推理验证上。由于高等数学中的证明往往需要复杂的推理步骤,难以通过简单的数值比较评估其正确性。
因此,形式化数学推理成为解决这些问题的关键。形式化推理依赖于如Lean等形式化系统,这些系统通过严格的规则来验证推理过程,并能自动反馈推理步骤的正确性。AlphaProof和AlphaGeometry等系统通过符号表示和推理框架成功地提升了AI的数学推理能力。此外,LLM通过生成高质量的合成数据和自动形式化,帮助推进定理证明和数学推理的研究。
尽管形式化数学推理取得了一定进展,但仍面临许多挑战,尤其是在数据和算法上。例如,如何自动将非形式化数学转化为形式化语言,如何提高多步推理的能力,以及如何有效地搜索和生成数学证明。AI与形式化推理的结合不仅能推动数学研究,还能在软件和硬件的形式化验证中提供重要应用,降低验证成本,提升系统的稳健性。
研究者提出了AI在数学推理中的能力评估标准,包括定理证明、自然语言推理验证、自动形式化等多个方面。随着AI在这些领域能力的提升,形式化数学推理将在未来几年取得突破,为数学研究和其他领域带来深远影响。
资深分析师帕特尔谈AI浪潮对半导体行业的影响
英伟达的市场主导地位及其原因: 英伟达在AI工作负载市场占据压倒性优势(70%-98%),这得益于其“三头龙”战略:优秀的硬件、领先的软件(CUDA生态)和强大的网络能力(Mellanox收购)。其竞争优势在于快速迭代产品(每年更新几代)、与供应链紧密合作以及对性能TCO(总拥有成本)的极致追求。
预训练规模的争议与新方向: 虽然预训练数据存在瓶颈,但“缩放定律”并未失效。 新方向是通过“推理时间计算”和“合成数据生成”来提升模型能力。合成数据在可功能验证的领域(如代码生成、数学证明)效果显著,但在主观领域(如艺术创作)则效果较差。
数据中心建设与资本支出: 超大规模公司(谷歌、微软、亚马逊、Meta等)持续巨额投资建设数据中心,表明“规模扩张”并未过时,而是转向了更注重效率和性能的规模化。 数据中心建设受限于电力和空间,而非GPU芯片供应。 大量老旧CPU服务器的替换也驱动了数据中心扩张和AI服务器的部署。
推理时间计算的成本与收益: 推理时间计算虽然减少了训练成本,但却大幅增加了推理成本(可能增长数十倍)。 然而,这种成本是可以转嫁给最终用户的,因为模型能力的提升带来了更高的生产力,从而带来更高的商业价值。
英伟达的挑战与替代方案: 虽然英伟达占据主导地位,但其面临着来自定制ASIC(例如谷歌TPU,亚马逊Trainium)、AMD以及其他公司(如博通在网络领域的竞争)的挑战。 然而,这些挑战在短期内难以撼动英伟达的领先地位。 AMD在硬件方面实力强劲,但在软件和系统级设计方面仍有差距。 谷歌TPU在谷歌内部应用广泛,但在外部市场拓展受限于软件封闭性和定价策略。
内存市场与HBM: 随着推理时间计算对内存需求的激增,HBM(高带宽内存)市场将迎来长期增长,并呈现出一定程度的差异化,这与以往的内存市场商品化特性有所不同。SK海力士在HBM市场占据领先地位。
未来展望(2025-2026): 2025年半导体市场将继续增长,但2026年存在不确定性。 模型持续改进、资金持续涌入以及超大规模公司的持续投资是关键因素。 新兴云服务商将面临整合,最终可能只有少数几家能够生存下来。 过度投资的风险依然存在。 关注模型改进速度和企业/消费者对AI服务的付费意愿,将是判断未来趋势的关键。
https://mp.weixin.qq.com/s/sf_Pfu7LSSQGLNUq2HDX8g
MI300X vs H100 vs H200 基准测试:训练性能对比
文章对三款重要的加速器芯片——AMD的MI300X和NVIDIA的H100、H200进行详细的基准测试对比。测试主要聚焦于这些芯片在人工智能训练任务中的表现,特别是在处理大规模神经网络训练时的效率与性能差异。
首先,文章通过对比了三款芯片在几个广泛使用的AI框架(如TensorFlow和PyTorch)上的表现,发现MI300X在某些训练任务上明显优于H100,尤其是在执行需要大量内存带宽的任务时。MI300X采用了高带宽内存(HBM3)和先进的多核架构,能够在处理大规模数据集时提供更好的吞吐量和更低的延迟。与此相比,H100虽然在大多数传统的训练负载中表现强劲,但在复杂的、多层次的神经网络模型中,常常无法与MI300X竞争。
而H200则处于两者之间,它基于NVIDIA最新的架构,采用了改进的GPU设计,进一步提升了对训练任务的处理能力。尽管H200在速度上超过了H100,但仍然无法完全追赶MI300X,尤其是在特定的深度学习应用场景中,MI300X的表现明显优于两者。
测试还特别关注了AI加速器的能源效率和散热性能,MI300X在处理高密度的训练任务时展现出较低的功耗,而H200虽然在能效上有所改进,但在极端高负载下仍表现出较高的热输出。总体而言,MI300X的能源管理系统表现优秀,尤其适合用于长期、大规模的训练任务。
https://semianalysis.com/2024/12/22/mi300x-vs-h100-vs-h200-benchmark-part-1-training/
推特
00 Arxiver开源:包含 138,830 篇 arXiv 论文的多Markdown格式
机器人强化学习Demo:处理字符串时,带来了 O(3) 的效率
这些并不是CGI(电脑生成图像)。强化学习(RL)回归了巅峰。当它处理字符串时,带来了 O(3) 的效率;当它操作物理电机时,它实现了完美的人形机器人后空翻,以及一台能超越地球上几乎所有动物机动能力的机器人生物。强化学习是为数不多能够同时掌控“比特世界”和“原子世界”的学习算法之一。
https://x.com/DrJimFan/status/1871243375103623208
Hume AI发布OCTAVE:下一代语音语言模型,拥有实时语音与个性化创作等
OCTAVE 拥有全新涌现能力,例如实时语音与个性化创作,以及更多惊艳功能:
通过一个简单的提示词,例如“博学的巫师导师”,OCTAVE 不仅能够生成高质量的语音,还可以在不到 300 毫秒内创造出全新的个性、口音、表情以及匹配的语言风格。
通过一段非常简短的音频片段(约5秒),OCTAVE 不仅可以模仿讲话者的声音,还能在很大程度上采纳他们的个性(此功能将受到限制)。
OCTAVE 能够在实时对话中生成多个一致的 AI 人物角色。
值得注意的是,OCTAVE 保留了与同等规模前沿 LLM(大语言模型)相似的能力。本帖中的所有回复均由 OCTAVE 3B 生成,展示了我们最小模型的强大功能。
OCTAVE 将很快集成到我们的 API 中。点击此处了解更多研究内容:
https://x.com/hume_ai/status/1871263932742246513
Jason Wei:旧式通过自校准研究“幻觉”问题的方式可能会逐渐被淘汰
感悟:旧式通过自校准研究“幻觉”问题的方式可能会逐渐被淘汰。
我曾经对此非常兴奋,但现在对此持怀疑态度,因为让模型访问互联网(例如,SearchGPT 或 Perplexity)的投资回报率(ROI)显然高得多。
当 ChatGPT 刚发布时,很明显,幻觉是大语言模型(LLM)面临的最重要问题之一。2023年,John Schulman 曾就如何减少幻觉给出了一场非常好的演讲。他的核心思想是,可以将某些幻觉转化为“我不知道”的回答,并通过强化学习(RL)让模型学会识别这种边界。我当时认为这会被广泛应用,语言模型会变得非常擅长于判断什么时候该回答,什么时候该说“我不知道”。
我仍然认为这个想法非常正确,但从经验上看,过去两年中似乎没有人取得重大进展。一个原因是,让模型在精确率(precision)和召回率(recall)上更加严格地实现帕累托最优(Pareto-optimal)是相当困难的。通常情况下,只是沿着精确率-召回率的边界移动,而在实际应用中,人们更关注召回率。如果模型过于频繁地回答“我不知道”,会让人感到很烦。
相比自校准,显然更优的方式是通过让语言模型浏览互联网来提升事实性。
过去,语言模型在处理一些查询时,例如“Barret Zoph 写过哪些论文”,很容易产生幻觉。但现在通过互联网浏览,它们能很好地回答这些简单的事实性问题。研究表明,为模型提供互联网访问权限的研究收益远高于教语言模型变得更具校准性。
换句话说,假设你在某个事实数据集上的召回率是 50%。一种方法是花几个月研究幻觉校准,可能会将幻觉率显著降低,但召回率却只有 45%。然而,如果用类似的研究工作量来增强模型的互联网访问能力,则可以显著提高精确率和召回率(例如,达到 90%)。尽管这两种方法从技术上来说是正交的,但一旦开始采用后一种方法,前一种方法的作用就会变成次要的了。
https://x.com/_jasonwei/status/1871285864690815053
产品
VocAdapt 利用人工智能改编的真实内容掌握语言
VocAdapt 是一款智能语言学习工具,为用户提供全新的学习体验,让掌握任何语言变得轻松有趣。通过其独特的适应性功能,VocAdapt 能够根据用户的语言水平动态调整文本和 YouTube 视频内容,同时保留原始的声音和风格。无论是文学经典、专业文章,还是热门视频,用户都可以自由选择自己感兴趣的内容,而无需担心难度过高或过低。VocAdapt 的核心理念是让学习过程融入自然的阅读和观影体验,跳过传统学习中的枯燥环节,帮助用户更高效、更愉快地掌握语言技能,从而真正实现寓教于乐。
GitHub 总结 2024 – 您的代码之年!
🎉 GitHub Wrapped 庆祝您编程的一年!在 https://githubwrapped.xyz 输入您的 GitHub 用户名,即可获得一份关于您的提交、热门存储库和语言趋势的精彩报告。无需登录 — 随时保存、分享和重新访问!🌟
https://githubwrapped.xyz
投融资
马斯克的XAI获得数十亿新资金
马斯克的AI公司xAI最近宣布成功筹集了60亿美元的新资金,这一资金将进一步推动其AI业务的发展。根据美国证券交易委员会的文件,至少有97名投资者参与了此次融资,参与者包括安德森霍洛维茨(Andreessen Horowitz)、贝莱德(Blackrock)、富达投资(Fidelity)、QIA等知名机构。这轮融资使xAI的总融资额达到了120亿美元,较早前的6亿美元的融资额大幅提升。
据了解,xAI计划利用这些资金继续发展其核心产品——Grok,后者已成为X平台(前身为Twitter)的一项重要功能。Grok不仅是X的聊天机器人,还具备生成图像和分析新闻的能力。随着xAI持续扩展,它的AI技术也将在特斯拉、SpaceX等马斯克的其他公司中得到应用,提升这些公司在客户支持和自动驾驶技术方面的效率。
此次融资对比其他竞争者,xAI的目标是追赶OpenAI和Anthropic等行业巨头的步伐。尽管xAI的收入尚不及Anthropic和OpenAI(分别预计到2024年底达到10亿美元和40亿美元),但其快速发展的势头仍然令人瞩目。
此外,xAI还在积极推进与数据中心的建设,未来将增加更多Nvidia GPU以增强AI模型的训练能力。未来的融资计划也已在酝酿之中,xAI预计将在明年再次进行融资。
https://techcrunch.com/2024/12/23/elon-musks-xai-lands-billions-in-new-cash-to-fuel-ai-ambitions/
Coralogix收购AI可观测性平台Aporia
Coralogix,作为一家获得大量资金支持的可观测性平台,近日宣布收购了Aporia,一家专注于为企业提供AI工作负载监控与安全保护的初创公司。Aporia的技术将被整合到Coralogix的服务中,并且Coralogix将成立一个专门的AI研究中心——Coralogix AI,由Aporia的联合创始人兼首席执行官Liran Hason与首席技术官Alon Gubkin共同领导。
这项收购的目标是通过Aporia的技术,帮助现有的数百个AI团队在Coralogix平台上实现对AI系统的高质量可视化、保护与控制,避免模型产生幻觉或泄露信息。此外,Coralogix还计划将AI监控与传统工作负载的监控平台进行统一,提供关于数据管道、基础设施、应用程序及AI系统的全面洞察。
Aporia成立于2019年,专注于机器学习领域,至今已筹集了3000万美元资金,最近一轮融资为2022年的2500万美元A轮融资,投资方包括Tiger Global、TLV Partners、Samsung Next和Vertex Ventures。
尽管Coralogix没有透露具体的收购价格,但这一举动反映了目前市场的一个趋势——大型平台收购单一解决方案,以满足企业对全栈平台的需求。此次收购也进一步巩固了Coralogix在AI战略上的承诺,预计将推动AI系统技术的创新与合作,助力企业客户在AI领域的发展。
https://techcrunch.com/2024/12/23/coralogix-acquires-ai-observability-platform-aporia/
AI初创公司吸引了欧洲25%的风险投资
尽管2024年欧洲的整体风险投资市场趋于平稳,但AI初创公司在此期间的表现却异常突出。据风险投资公司Balderton Capital与Dealroom的数据显示,欧洲的AI初创公司今年吸引了约137亿美元的投资,占该地区风险投资总额的25%,相比四年前的15%大幅增长。这一增幅促成了多个新独角兽的诞生,如Poolside和Wayve等。
Balderton Capital的合伙人James Wise指出,欧洲的AI公司如果拥有突破性的技术,就能在早期阶段筹集到数百万甚至数十亿欧元的资金,这与美国的情况相似。这一现象打破了外界对欧洲市场的“负面叙事”,并显示出欧洲AI公司的价值在过去四年内翻倍,当前总值已达到5080亿美元,占整个技术行业价值的15%,比三年前的12%有所提升。
这些数据显示,AI初创公司无论处于早期还是后期,都能获得资金支持,尽管部分资金来源于非欧洲地区。此外,许多美国AI公司也将欧洲视为重要的人才库。Wise强调,尽管欧洲市场仍在一定程度上依赖美国,但本地的AI生态系统已经充满活力。
此外,Dealroom的数据显示,2024年欧洲AI公司的就业人数已达到349,000人,比2020年增长了168%。这一现象与Wise的观点一致,他认为,未来将出现大量小型但高效的AI公司,而非单一大型企业。
AI技术的广泛应用也带来了显著的生产力提升。根据Balderton Capital的调查,93%的公司表示,生成型AI工具在过去一年内显著改善了工作流程,其中一些工程团队的生产力翻倍,其他部门则通过AI实现了20%的运营成本节省。
Wise认为,AI技术的广泛采用将持续推进,这可能为欧洲AI行业带来更多机会。
https://techcrunch.com/2024/12/23/ai-startups-attracted-25-of-europes-vc-funding/
— END —
快速获得3Blue1Brown教学动画?Archie分享:使用 Manim 引擎和 GPT-4o 将自然语言转换为数学动画
原创文章,作者:LLM Space,如若转载,请注明出处:https://www.agent-universe.cn/2024/12/29079.html