大模型日报(端午特刊)

我们希望能够搭建一个AI学习社群,让大家能够学习到最前沿的知识,大家共建一个更好的社区生态。如果想和我们空间站日报读者和创作团队有更多交流,欢迎扫码。

大模型日报(端午特刊)

资讯

01

突发!陈茂波透露,80 亿美元港版“淡马锡” 周三或战略投资一家 AI 大模型独角兽,助力香港创科生态圈

去年 9 月,香港任命陈家齐(Clara Chan)被任命为香港金融管理局新 80 亿美元基金的 CEO,新基金将投资粤港澳大湾区的企业,香港财政司司长陈茂波担任香港金融管理局执行董事,同时担任香港投资公司 CEO。6 月 9 日,陈茂波发表了香港在推动创新科技(创科)生态圈发展方面的最新举措,香港政府设立的一支基金计划与一家专注于大型 AI 模型和智能制造的本地“独角兽”企业签署合作协议。
大模型日报(端午特刊)https://mp.weixin.qq.com/s/tTdK1lnt_VVpBqkBZ-vZvA
02

独家专访Pika:Sora is not very hard to beat,我们的算法能够以小胜大

即使Sora已经强势“炸”过场,Pika还是再次带着硅谷一众明星资方的投票回到了舆论中心。6月5日,Pika宣布已完成8000万美元(约合人民币5.8亿元)的B轮融资,总融资额达到1.35亿美元,较2023年末,公司投后估值实现翻倍至4.7亿美元。“我们会更aggressive地做视频大模型”,这家刚刚度过一周年生日的视频生成创业公司,计划在这轮融资之后快速扩张研究和工程师团队。四个月前,来自OpenAI的Sora重新洗牌了视频生成赛道。Sora以长达60秒的连贯视频、高清画面质感、连贯的镜头移动、运动方式等优点,拉高了整个视频生成赛道的技术水平,引发了全球对视频生成的狂热。像LLM领域一样,视频生成貌似也开始变成追赶OpenAI的游戏。同样是在掌声中出道,去年11月,Pika1.0产品由于出色、令人惊艳的视频生成效果,以及支持用户实时进行视频编辑和修改的突破性功能,快速走红。一路斩获众多硅谷科技界明星人物的背书和投资。成立5个月,pika仅有3人的团队一举成为彼时视频生成赛道龙头Runway最大的竞争对手。
大模型日报(端午特刊)https://mp.weixin.qq.com/s/WE6AuW8SVUeoJrCKgHD6zg
03

原作者带队,LSTM卷土重来之Vision-LSTM出世

AI 领域的研究者应该还记得,在 Transformer 诞生后的三年,谷歌将这一自然语言处理届的重要研究扩展到了视觉领域,也就是 Vision Transformer。后来,ViT 被广泛用作计算机视觉中的通用骨干。这种跨界,对于前不久发布的 xLSTM来说同样可以实现。最近,享誉数十年的 LSTM 被扩展到一个可扩展且性能良好的架构 ——xLSTM,通过指数门控和可并行化的矩阵内存结构克服了长期存在的 LSTM 限制。现在,这一成果已经扩展到视觉领域。xLSTM和 Vision-LSTM 两项研究均由 LSTM 原作者带队,也就是 LSTM 的提出者和奠基者 Sepp Hochreiter。在最近的这篇论文中,Sepp Hochreiter 等人推出了 Vision-LSTM(ViL)。ViL 包含一堆 xLSTM 块,其中奇数块从上到下、偶数块则从下到上处理补丁 token 序列。
大模型日报(端午特刊)https://mp.weixin.qq.com/s/_9DYLbRkiXTU70nsXJLCDQ
04
4

329篇图像、视频生成论文,今年CVPR最火的研究主题是这些

一年一度的计算机视觉和模式识别会议(CVPR)一直是 CV 界前沿研究的灯塔。CVPR 2024 录用结果显示,今年共有 2719 篇论文被接收,录用率 23.6%。那么大模型时代,今年的研究主题有哪些变化?最近,乔治亚理工学院计算机学院(College of Computing, Georgia Institute of Technology)对 CVPR 2024 录用数据的统计分析,直观呈现了当前计算机视觉领域的研究热点分布情况。
大模型日报(端午特刊)https://mp.weixin.qq.com/s/ZMkMui2euabdAbG8MJnBOg
05

支持合成一分钟高清视频,华科等提出人类跳舞视频生成新框架UniAnimate

人类跳舞视频生成是一项引人注目且具有挑战性的可控视频合成任务,旨在根据输入的参考图像和目标姿势序列生成高质量逼真的连续视频。随着视频生成技术的快速发展,特别是生成模型的迭代演化,跳舞视频生成任务取得了前所未有的进展,并展示了广泛的应用潜力。现有的方法可以大致分为两组。第一组通常基于生成对抗网络(GAN),其利用中间的姿势引导表示来扭曲参考外观,并通过之前扭曲的目标生成合理的视频帧。然而,基于生成对抗网络的方法通常存在训练不稳定和泛化能力差的问题,导致明显的伪影和帧间抖动。第二组则使用扩散模型(Diffusion model)来合成逼真的视频。这些方法兼具稳定训练和强大迁移能力的优势,相较于基于 GAN 的方法表现更好,典型方法如 Disco、MagicAnimate、Animate Anyone、Champ 等。尽管基于扩散模型的方法取得了显著进展,但现有的方法仍存在两个限制:一是需要额外的参考网络(ReferenceNet)来编码参考图像特征并将其与 3D-UNet 的主干分支进行表观对齐,导致增加了训练难度和模型参数;二是它们通常采用时序 Transformer 来建模视频帧之间时序依赖关系,但 Transformer 的复杂度随生成的时间长度成二次方的计算关系,限制了生成视频的时序长度。典型方法只能生成 24 帧视频,限制了实际部署的可能性。尽管采用了时序重合的滑动窗口策略可以生成更长的视频,但团队作者发现这种方式容易导致片段重合连接处通常存在不流畅的转换和外貌不一致性的问题。为了解决这些问题,来自华中科技大学、阿里巴巴、中国科学技术大学的研究团队提出了 UniAnimate 框架,以实现高效且长时间的人类视频生成。
大模型日报(端午特刊)https://mp.weixin.qq.com/s/562LGTopFHNp5hMqvqoE6g
06

取代昂贵量子方法,南科大AI方法实现蛋白质-药物系统多尺度量子「精炼」

生物大分子结构对于药物开发和生物催化至关重要。量子「精炼」(Quantum refinement,QR)方法采用可靠的量子力学(QM)方法进行晶体细化,在提高结构质量甚至纠正生物大分子的结构方面显示出前景。然而,巨大的计算成本和复杂的量子力学/分子力学(QM/MM)设置限制了 QR 的应用。在这里,南方科技大学的研究团队将稳健的机器学习势(Machine Learning Potentials,MLP)融入多尺度 ONIOM(QM:MM)方案中,来描述核心部分(例如药物/抑制剂),取代昂贵的 QM 方法。首次组合了两个级别的 MLP,从而克服 MLP 的限制。该团队独特的基于 MLP+ONIOM 的 QR 方法,实现了 QM 级精度,并且效率显著提高。
大模型日报(端午特刊)https://mp.weixin.qq.com/s/RDvtPbpFpx1RqiLjB5IZBA

推特

01

人民对AI进展是否太乐观?Rocktäschel指出,指数增长和对数增长的曲线在转折点前是一致的

Tim Rocktäschel:和其他人一样,我对AI的进展非常兴奋和乐观。但是,由于似乎存在一种误解,认为对指数趋势的未来进行预测非常容易(只需在对数尺度上画线),因此我想提醒大家,在观察到一个指数趋势(例如计算能力或神经网络参数增加)时,我们永远不能完全确定我们所观察到的实际上不是在转折点之前的逻辑趋势。在转折点之前,两种趋势看起来是一样的。

Yann LeCun转发:是的,我已经多次提到这一点。S形曲线的开始看起来像指数增长。
我们不仅“永远不能完全确定我们所观察到的实际上不是在转折点之前的逻辑趋势”,我们还可以完全确定每一个指数趋势最终都会通过一个转折点并饱和成一个S形曲线。
在转折点之后继续指数趋势需要范式转变。
没有任何物理过程可以无限增长。
在动力学方程中,总是存在最终变得占主导地位的摩擦项(能量消耗、热量散发、量子效应、热波动、通信带宽、质量/能量密度等)。
即使是那些在长时间尺度上看似指数增长的过程实际上也是一系列S形曲线,其中每一个新的S形曲线都是由范式转变引起的。
摩尔定律是一个很好的例子。它现在正在饱和。但过去七十年的指数进展是由于一系列技术范式转变,这些转变并不是预先注定的。
每个范式都表现得像一个S形曲线。每个新的S形曲线都超越了前一个。整体表现出指数增长。
我们在飞机速度或太空旅行等领域没有看到类似的范式转变。
技术范式转变需要科学突破。
大模型日报(端午特刊)https://x.com/ylecun/status/1799064075487572133?s=46&t=GRStLXDcUNuun8J5Noyw4Q
02

Whisper WebGPU:使用OpenAI Whisper进行实时浏览器内语音识别

终于实现了:使用OpenAI Whisper进行实时浏览器内语音识别!🤯 该模型使用Transformers.js和ONNX Runtime Web完全在设备上运行,并支持100种不同语言的多语言转录!🔥
查看演示(加上源代码)!👇

大模型日报(端午特刊)https://x.com/osanseviero/status/1799118330424619198?s=46&t=GRStLXDcUNuun8J5Noyw4Q

03

Dabo分享在电子表格中重建整个GPT架构:nanoGPT,Karpathy 设计,85000个参数

我在电子表格中重建了整个GPT架构。这是一个由 @karpathy 设计的 nanoGPT,具有约85000个参数,小到可以打包成一个电子表格文件。
这对于学习Transformer如何工作非常有用,因为它展示了所有通过Transformer管道的数据和参数,并且所有计算实际上都在这些单元格中进行。
以下是项目链接,您可以下载文件并自行体验。无需编写代码,这只是一个电子表格。😉 电子表格就是你所需要的一切:https://github.com/dabochen/spreadsheet-is-all-you-need
同时感谢 @BrendanBycroft 的LLM可视化项目,启发了这个项目。
大模型日报(端午特刊)https://x.com/chendabo/status/1799614807878095359?s=46&t=GRStLXDcUNuun8J5Noyw4Q
04
4

Dylan Patel推荐Cuda Mode学习视频

如果你从事AI工作,这是最高级别的Alpha频道。你在做什么,匿名网友?现在就去看这些视频吧。https://youtube.com/@cudamode?si=MRsyPhC2UEgIt5_e
大模型日报(端午特刊)https://x.com/dylan522p/status/1799915684882972747
05

In-The-Wild Jailbreak Prompts on LLMs:来自各大网站的1,405个ChatGPT越狱提示

非常有趣的仓库
这个数据集包含来自Reddit、Discord、网站和开源数据集的15,140个ChatGPT提示(包括1,405个越狱提示)。

大模型日报(端午特刊)https://x.com/rohanpaul_ai/status/1799820335891857576

06

Jason Liu分享小合集:值得加入的优秀公司和他们发布的工作

我正在创建一个小的Notion页面,列出值得加入的优秀公司以及人们用于工作的合同。
大模型日报(端午特刊)https://x.com/jxnlco/status/1799812324234232182
07

Henry:如何在机器学习领域变得很强

因为人们不断问我如何在机器学习领域变得有能力:这是最快的路径。这大致是我所做的,但去掉了所有的杂音和额外的支线任务。在我看来,这确实是一个相当不错的策略。
大模型日报(端午特刊)https://x.com/arithmoquine/status/1799825345199415397
08

AI的性格应该是什么样的?Anthropic AI发布:Claude 3中添加的“性格训练”

开发AI模型的公司通常会训练它们避免说出有害的话语和避免协助进行有害的任务。这样做的目的是训练模型表现出“无害”的行为。但当我们想到那些我们真正钦佩的人物的品格时,我们不仅仅考虑避免伤害。我们会想到那些对世界充满好奇、努力说真话而不失礼貌、能够看到问题的多个方面而不过于自信或过于谨慎的人。我们会想到那些耐心的倾听者、谨慎的思考者、机智的谈话者,以及许多其他我们认为是智慧和全面的人的特质。
当然,AI模型不是人。但随着它们变得越来越强大,我们相信我们可以——而且应该——试图训练它们在更丰富的意义上表现良好。这样做甚至可能使它们在是否以及为什么避免协助有害任务的问题上更加有洞察力,并且在如何回应方面做出更好的决定。
Claude 3 是第一个我们在对齐微调过程中添加了“性格训练”的模型:这是在初始模型训练之后发生的训练部分,它将模型从一个预测文本模型转变为一个AI助手。性格训练的目标是让Claude开始拥有更细致、更丰富的特质,比如好奇心、开放的心态和深思熟虑。
将AI模型的性格视为一个产品特性,故意提供更有趣的用户体验,而不是对齐干预,这种想法很容易产生。但AI模型的特质和倾向对它们在世界上的行为有广泛的影响。它们决定了模型如何应对新的和困难的情况,以及如何回应存在的人类观点和价值观的光谱。训练AI模型拥有良好的性格特质,并在它们变得更大、更复杂、更强大时继续保持这些特质,在许多方面是对齐的核心目标。
我们会继续改进Claude的性格,但由于对Claude 3的性格和个性有普遍的兴趣,我们决定解释一下在其构建过程中涉及的一些思考,然后简要说明我们如何将这些特质训练到模型中。
大模型日报(端午特刊)https://x.com/AnthropicAI/status/1799537686962638886
09

人民对AI进展是否太乐观?Rocktäschel指出,指数增长和对数增长的曲线在转折点前是一致的

Tim Rocktäschel:和其他人一样,我对AI的进展非常兴奋和乐观。但是,由于似乎存在一种误解,认为对指数趋势的未来进行预测非常容易(只需在对数尺度上画线),因此我想提醒大家,在观察到一个指数趋势(例如计算能力或神经网络参数增加)时,我们永远不能完全确定我们所观察到的实际上不是在转折点之前的逻辑趋势。在转折点之前,两种趋势看起来是一样的。

Yann LeCun转发:是的,我已经多次提到这一点。S形曲线的开始看起来像指数增长。
我们不仅“永远不能完全确定我们所观察到的实际上不是在转折点之前的逻辑趋势”,我们还可以完全确定每一个指数趋势最终都会通过一个转折点并饱和成一个S形曲线。
在转折点之后继续指数趋势需要范式转变。
没有任何物理过程可以无限增长。
在动力学方程中,总是存在最终变得占主导地位的摩擦项(能量消耗、热量散发、量子效应、热波动、通信带宽、质量/能量密度等)。
即使是那些在长时间尺度上看似指数增长的过程实际上也是一系列S形曲线,其中每一个新的S形曲线都是由范式转变引起的。
摩尔定律是一个很好的例子。它现在正在饱和。但过去七十年的指数进展是由于一系列技术范式转变,这些转变并不是预先注定的。
每个范式都表现得像一个S形曲线。每个新的S形曲线都超越了前一个。整体表现出指数增长。
我们在飞机速度或太空旅行等领域没有看到类似的范式转变。
技术范式转变需要科学突破。
大模型日报(端午特刊)https://x.com/ylecun/status/1799064075487572133?s=46&t=GRStLXDcUNuun8J5Noyw4Q

产品

01

OpinioAI

OpinioAI 是一个利用 AI 技术的研究平台,帮助企业快速分析数据、评估创意,并综合出新的见解,从而更好地了解客户需求,测试和评估想法,加快进入市场的速度。该平台重视数据隐私,仅处理用户注册时提供的信息,同时也能与第三方数据源整合,为企业提供全面的客户洞察。
大模型日报(端午特刊)https://www.opinio.ai/
02

Peek

Peek 是一款浏览器插件,通过 AI 自动驾驶系统和方便的工作区管理功能,帮助用户高效地整理和组织浏览器标签页。它可以自动将标签页归类,汇总网页内容,并根据浏览历史推荐相关页面;工作区还提供拖拽排序、添加笔记等功能,使用户能够更好地管理日常探索和工作中积累的大量标签页,从而提高在线信息收集和整理的效率。
大模型日报(端午特刊)https://www.gopeek.ai/
03

NotezAI

NotezAI 是一款 AI 驱动的笔记应用程序,旨在通过语音转录、自动摘要等功能大幅提升用户的工作效率和生产力。这款应用主要面向学生、内容创作者和商业专业人士,帮助他们更好地管理思路、规划内容,从而在各自的领域取得更好的成果。初步反馈显示,NotezAI 的使用体验不错,用户认为这款应用确实是一个”游戏规则改变者”。如果您也对此感兴趣,不妨进一步了解了解 NotezAI 的具体功能和使用方法。
大模型日报(端午特刊)https://notezai.com/
04

MindMatrix

MindMatrix 是一款免费的 AI 智能思维导图生成工具,可以帮助内容创作者、教育工作者等用户快速创建、组织和可视化复杂主题,将深奥的概念以直观的思维导图形式呈现,提高知识传达的效果。它利用 AI 技术,只需简单操作就能生成富有结构的思维导图,是一款非常实用的生产力工具。
大模型日报(端午特刊)https://everlearns.com/mindmap-generator
HuggingFace&Github
01

Mi-gpt

MiGPT 是一个将小爱音箱与 ChatGPT 等大语言模型完美融合的项目,致力于打造一个更智能、更懂你的智能家居助手。它不仅具备强大的问答能力,还能通过流式响应、长短期记忆、自定义语音等功能,与用户建立更深厚的互动关系,并利用感知用户情绪的能力主动调节家居环境,让智能家居生活更加贴心舒适。

大模型日报(端午特刊)https://github.com/idootop/mi-gpt

02

Buffer of Thoughts

BoT 是一种新颖的思想增强推理方法,通过构建一个元缓冲区来存储从各种任务中提取的高级思维模板,并使用特定的推理结构自适应地实例化这些模板来解决问题。动态管理该缓冲区,能够有效地提高大型语言模型在各种密集型推理任务上的性能、泛化能力和鲁棒性,成本也较低。
大模型日报(端午特刊)https://github.com/YangLing0818/buffer-of-thought-llm
03

TypeGPT

TypeGPT 是一款 Python 应用程序,可让用户在操作系统的任何文本字段中调用 ChatGPT 或 Google Gemini,无论是聊天应用程序、文档还是代码编辑器。它提供全局可访问性、键盘快捷键和剪贴板集成等功能,帮助您更加方便地与 ChatGPT 进行交互。使用 TypeGPT 需要先安装相关 Python 包并获取 OpenAI API 密钥。该应用程序支持直接运行和后台运行两种模式,为用户提供灵活的使用体验。

大模型日报(端午特刊)https://github.com/olyaiy/TypeGPT

学习
01

Skywork-MoE 技术报告细节分析

Skywork-MoE 技术报告揭示了大规模分布式训练中的 MoE(混合专家)模型技术细节。文章强调了模型初始化方法的重要性,包括从现有密集模型检查点升级再利用与从头开始训练的对比。研究发现,适当的学习率调整和专家层的多样化对于提升模型性能至关重要。此外,文章还介绍了门控 logit 归一化和自适应辅助损失系数等两项创新技术,它们有助于提高专家的多样化和训练效率。通过这些技术和见解,Skywork-MoE 在 SkyPile 语料库的压缩子集上进行了成功的训练,并在广泛的基准测试中表现出色。文章还讨论了专家并行方式 EDP 以及如何通过不均匀的流水线并行减少负载不均衡现象,从而提升设备利用率。最终,作者对 Skywork-MoE 模型的训练和应用提供了全面的技术细节分析,为大型语言模型的开发提供了宝贵的参考。
大模型日报(端午特刊)https://zhuanlan.zhihu.com/p/702224917?utm_psn=1782461234177769472
02

Kernel 优化架构分析

文章深入探讨了推理引擎中 Kernel 层的优化技术,强调了卷积算子优化的重要性,包括 Im2Col、Winograd 和 FFT 算法的应用。详细介绍了内存布局优化方法,如权重和输入数据的重排,以及通道优先策略。在汇编层面,提出了针对特定 CPU 指令集的指令优化和循环优化策略。同时,阐述了并行计算和自动调优在调度优化中的作用。
在推理架构方面,文章分别从 CPU 和 GPU 的角度出发,介绍了各种高性能算子库的使用,如 NEON、AVX、CUDA 等。卷积操作原理的讲解揭示了其在信号处理和图像处理中的物理意义,并通过实例展示了卷积的数学原理和性质。
最后,文章强调了在推理流程中对模型优化和硬件适配的重要性,以及如何通过 Tensor 运算和卷积运算的优化来提高性能。特别提到了张量的内存布局和计算复杂度分析,以及通过向量化、并行化和循环展开等方法进行卷积计算优化的必要性。
大模型日报(端午特刊)https://zhuanlan.zhihu.com/p/702309213?utm_psn=1782884118931955712
03

我做模型量化的那些年

网页详细介绍了模型量化的基本概念,包括量化操作如何通过线性映射和舍入将连续实数映射到离散值,以及模型量化如何通过对模型中的各个层和张量进行量化来实现加速和节省资源。作者分享了自己在团子工作期间,从算法研究到工程框架开发,以及从服务端到移动端的量化工作经验。文章进一步探讨了模型量化的四个主要方面:加速原因(包括访存加速、向量化运算加速、量化算子优化和量化图优化);精度问题的解决(包括量化误差分析、PTQ 和 QAT 方法、模型结构和数据对量化的影响以及其他影响因素);模型量化框架的推荐(包括 TensorRT、SNPE、爱芯、瑞芯微的编译器以及 Pytorch-Quantization、AIMET、MQBench 等框架);以及作者团队开发的 MTPQ 框架的特点和使用示例。
大模型日报(端午特刊)https://zhuanlan.zhihu.com/p/680567656?utm_psn=1782879477049577472
04

大模型训练框架Megatron-lm和deepspeed流水线切分

网页详细介绍了 Megatron-lm 和 Deepspeed 在流水线并行训练中的技术细节。Megatron-lm 支持多种流水线模式,包括非流水线的前向与反向传播,以及两种流水线传播模式:一种是不交错的流水线传播,采用 PipeDream-Flush 策略,通过预热前向传播、稳定的 1F1B 阶段和冷却反向传播来优化训练过程;另一种是交错的流水线传播,它在模型切分上更为灵活,允许在同一设备上存在多个 stage。Megatron-lm 按照层数均分 transformer 模型。Deepspeed 则提供了三种模型划分方式:均分层数、均分参数量和自定义方式,并配备了 profiler 工具以便于性能分析。这些技术细节展示了如何通过流水线并行来提升大模型训练的效率和性能。
https://zhuanlan.zhihu.com/p/702243264?utm_psn=1782723320045531136
05

LLM应用框架解码之:DSPy

DSPy 是一个针对大型语言模型(LLM)的应用框架,旨在通过自动化手段优化 prompt 设计,提升 LLM 的性能和效率。文章首先分析了 LLM 在感知和生成能力上的进步,但推理能力的提升相对较慢,这对于开发者来说构成了挑战。DSPy 通过对 prompt 进行结构化处理,将其抽象为 signatures、modules 和 optimizers,使得 LLM 的应用开发更加类似于传统的软件工程。其中,signatures 定义了输入输出结构,modules 实现了特定的功能和流程,而 optimizers 则负责自动优化整个 pipeline。文章详细介绍了几种优化器的工作原理,如 BootstrapFewShot、COPRO、MIPRO 和 BootstrapFinetune,它们通过不同的策略优化样例、指令和模型 fine-tuning,以及 pipeline 结构。此外,DSPy 还支持通过 assertions 确保输出结果的质量,并在必要时进行自动修复。作者认为,尽管 DSPy 在自动优化方面取得了一定成效,但在实际应用中仍需解决成本、定制化和代码质量等问题。文章最后提到了其他 prompt 优化项目,并对 DSPy 的未来发展方向进行了展望。
大模型日报(端午特刊)https://zhuanlan.zhihu.com/p/702228666?utm_psn=1782721124339163137
06

当我们没有研究Scaling law的时候,我们在研究什么?

文章深入探讨了 Scaling law 在人工智能领域的重要性及其在模型训练中的应用。Scaling law 描述了模型性能随着数据量、模型参数和计算资源增加而变化的规律。在未来的 AI 发展中,Scaling law 被认为是实现通用人工智能(AGI)的关键因素之一。OpenAI 的 GPT-4 技术报告强调了通过较小规模的计算预测大规模模型性能的重要性。文章指出,尽管 Scaling law 在当前研究中占据重要地位,但在其发现之前,研究者们更多关注的是网络结构的优化、loss function 的调整以及在有限数据集上的模型性能。随着 Scaling law 的提出,AI 界开始重视模型在大数据和大计算条件下的可扩展性,如 OpenAI 和 Anthropic 在自动驾驶领域的应用,以及 Tesla 通过数据飞轮优化自己的自动驾驶技术。此外,文章还提到了在没有 Scaling law 的研究前提下,AI 界的研究重点,如模型的复杂性、层数、结构优化等,以及在小数据集上的模型优化。最后,文章强调了 Scaling law 在 AI 发展中的核心地位,认为其持续发挥作用是达到 AGI 的必由之路。
大模型日报(端午特刊)https://zhuanlan.zhihu.com/p/702215404?utm_psn=1782722171095638016
推荐阅读
  1. 「出海日志」大模型时代的出海实践|活动专辑
  2. 「理论与实践」AIPM 张涛:关于Diffusion你应该了解的一切

    — END —

原创文章,作者:LLM Space,如若转载,请注明出处:https://www.agent-universe.cn/2024/06/14792.html

Like (0)
Previous 2024-06-09 22:48
Next 2024-06-11 19:31

相关推荐

  • 大模型日报(8月7日 资讯篇)

    我们希望能够搭建一个AI学习社群,让大家能够学习到最前沿的知识,大家共建一个更好的社区生态。 「奇绩大模型日报」知识库现已登陆飞书官方社区: https://www.feishu.…

    2024-08-07
    255
  • 大模型周报:苹果 iOS 史上最大更新!

    奇绩创坛大模型日报由奇绩创坛行研组的同学们精选编辑而成,如需进入大模型日报群和空间站请直接扫码。社群内除日报外还会第一时间分享奇绩活动,欢迎大家一起交流!👇🏻 01 资讯 小红书开…

    2024-02-02
    168
  • 大模型日报(3月28日)

    特别活动! 欢迎观看大模型日报,如需进入大模型日报群和空间站请直接扫码。社群内除日报外还会第一时间分享大模型活动。 欢迎大家一起交流! 推特 01 Databricks上线DBRX…

    2024-03-28
    134
  • 大模型日报(7月10日 资讯篇)

    我们希望能够搭建一个AI学习社群,让大家能够学习到最前沿的知识,大家共建一个更好的社区生态。 「奇绩大模型日报」知识库现已登陆飞书官方社区: https://www.feishu.…

    2024-07-10
    171
  • 又双叒叕!AI Unconference北京Ⅱ场活动报名!

         什么是      AI Unconference?   「多个AI相关主题与自由讨论」  ‍‍‍‍ 你是否厌倦了坐在台下苦等Q&A? 秉承着“参与者即Speake…

    2024-08-12
    198
  • 寒武纪视觉爆炸:多模态大模型在视觉处理中的新探索

    Guest Information 分享嘉宾 Peter Tong 童晟邦 纽约大学博士 师从 Yann LeCun 教授和 Saining Xie 教授 伯克利人工智能实验室(B…

    2024-09-03
    247
  • 大模型日报(7月19日 资讯篇)

    我们希望能够搭建一个AI学习社群,让大家能够学习到最前沿的知识,大家共建一个更好的社区生态。 「奇绩大模型日报」知识库现已登陆飞书官方社区: https://www.feishu.…

    2024-07-19
    263
  • 大模型日报(9月11日 资讯篇)

    我们希望能够搭建一个AI学习社群,让大家能够学习到最前沿的知识,大家共建一个更好的社区生态。 「奇绩大模型日报」知识库现已登陆飞书官方社区: https://www.feishu.…

    2024-09-11
    283
  • 大模型日报(7月3日 资讯篇)

    我们希望能够搭建一个AI学习社群,让大家能够学习到最前沿的知识,大家共建一个更好的社区生态。 「奇绩大模型日报」知识库现已登陆飞书官方社区: https://www.feishu.…

    2024-07-03
    173
  • 大模型日报(5月29日 资讯篇)

    我们希望能够搭建一个AI学习社群,让大家能够学习到最前沿的知识,大家共建一个更好的社区生态。如果想和我们空间站日报读者和创作团队有更多交流,欢迎扫码。 欢迎大家一起交流! 资讯 0…

    2024-05-29
    128