大模型日报(3月12日)

欢迎观看大模型日报

大模型日报(3月12日)

01

被误解的「中文版Sora」背后,字节跳动有哪些技术?

2024 开年,OpenAI 就在生成式 AI 领域扔下了重磅炸弹:Sora。这几年,视频生成领域的技术迭代持续加速,很多科技公司也公布了相关技术进展和落地成果。在此之前,Pika、Runway 都曾推出过类似产品,但 Sora 放出的 Demo,显然以一己之力抬高了视频生成领域的标准。在今后的这场竞争中,哪家公司将率先打造出超越 Sora 的产品,仍是未知数。这篇文章将介绍来自字节跳动智能创作团队的 9 项研究,涉及文生图、文生视频、图生视频、视频理解等多项最新成果。我们不妨从这些研究中,追踪探索视觉生成类模型的技术进展。
大模型日报(3月12日)https://mp.weixin.qq.com/s/dYfh57A-3b7f0M6yx-pfCQ

02

兼具精度与效率

微软基于AI的新电子结构计算框架M-OFDFT登Nature子刊

近几十年来,理论与计算化学领域取得的一大成就是能够通过计算手段得到分子体系的物理化学性质。这为药物发现和材料设计等诸多工业界问题带来了全新的研究手段,有望缩短开发流程并降低开发成本。这些计算方法的基础步骤是使用电子结构方法求解给定分子体系的电子状态,进而得到该体系的各种性质。然而,各种电子结构方法的求解精度和计算效率往往无法兼得。当前,取得相对合理的「精度-效率」权衡而被广泛应用的方法是Kohn-Sham形式的密度泛函理论(Kohn-Sham density functional theory, KSDFT)。但KSDFT具有较高的计算复杂度,不能很好地满足日益增长的求解大规模分子体系的需求。为此,微软研究院科学智能中心的研究员们提出了一种基于深度学习和无轨道密度泛函理论(OFDFT)的电子结构计算框架M-OFDFT,其不仅显著超越了KSDFT的计算效率,还能保有其求解精度。这一成果展示了人工智能在提升电子结构计算中「精度-效率」权衡方面的卓越能力,并将助力加速相关业界问题的研究与开发。
大模型日报(3月12日)https://mp.weixin.qq.com/s/dMrQEIeimXcN-4yIDoDt0A

03

Nature子刊综述

储层计算未来的新机遇和挑战,华为联合复旦等发布

尽管深度学习在处理信息方面取得了巨大成功,但其依赖于训练大型神经网络模型,限制了其在常见应用中的部署。因此,人们对开发能快速推理和快速适应的小型轻量级模型的需求日益增长。作为当前深度学习范式的替代方向,神经形态计算研究引起了人们的极大兴趣,其主要关注开发新型计算系统,这些系统的能耗只有当前基于晶体管的计算机的一小部分。在神经形态计算中,一个重要的模型家族是储层计算(RC),储层计算起源于 21 世纪初,它在过去的二十年中取得了重大进展。为了释放储层计算的全部功能,为时态动力系统提供快速、轻量级且可解释性更高的学习框架,需要进行更多的研究。近日,华为联合复旦大学、伯明翰大学和根特大学(Ghent University)在《Nature Communications发表题为《Emerging opportunities and challenges for the future of reservoir computing的 Perspective 文章。
大模型日报(3月12日)
https://mp.weixin.qq.com/s/weSQN7uYQ7LKfFWd2e1BTA


04

清华、浙大、复旦校友在列

2024苹果博士奖学金华人占一半

刚刚,苹果机器学习研究中心(Apple Machine Learning Research)正式公布了 2024 年 AI(人工智能)、ML(机器学习)领域获得博士生奖学金的「苹果学者」名单。今年共有 21 位年轻学者获得了苹果学者计划的资助,华人占了一半。苹果博士奖学金旨在奖励和支持计算机科学与工程领域极具潜力的博士研究生开展研究,每年颁发一次。获奖者不仅可以获得奖学金支持,还能得到苹果实习机会和苹果研究员的学术指导。
大模型日报(3月12日)
https://mp.weixin.qq.com/s/88BxvgxdSIFUu2i8L__4Sw

05

微软 AI PC 下周发布!

重点关注 Copilot 及 AI Explorer,纳德拉表示 AI 让专业知识触手可及

微软宣布将于 3 月 21 日举办一场活动,重点展示其即将推出的生成式 AI 设备和功能。题为“Advancing the new era of work with Copilot”的活动将于美东时间中午 12 点开始。Surface Pro 10 和 Surface Laptop 6 预计将成为首批支持 Windows 11 中即将推出的 AI 功能的机器之一,这些功能包括设备上的 Copilot 功能、新的实时实时字幕和翻译功能、视频游戏升级和帧速率平滑、增强的Windows Studio 效果以及内部称为“AI Explorer”的新功能。
大模型日报(3月12日)https://mp.weixin.qq.com/s/2aKd1q0hUT24bRMiYiINPw


06

OpenAI开源了:Transformer自动debug工具上线GitHub

今天一早,OpenAI 机器学习研究员 Jan Leike宣布,OpenAI 开放了自己内部一直用于分析 Transformer 内部结构的工具。该项目开放才几个小时,虽然没有经过太多宣传,star 数量上涨得也挺快。Transformer Debugger (TDB) 是 OpenAI 对齐团队(Superalignment)开发的一种工具,旨在支持对小体量语言模型的特定行为进行检查。据介绍,该工具把自动可解释性技术与稀疏自动编码器进行了结合。具体来说,TDB 能够在需要编写代码之前进行快速探索,并能够干预前向传递,帮助人们查看它是如何影响模型特定行为的。TDB 可用于回答诸如「为什么模型在此提示(prompt)中输出 token A 而不是 token B?」之类的问题或「为什么注意力头 H 会在这个提示下关注 token T?」大模型日报(3月12日)
https://mp.weixin.qq.com/s/HklR73Bxkcmzm48KaxyG2Q


07

350亿参数、开放权重

Transformer作者创业后推出新大模型

开源大语言模型宇宙又来了一个强劲对手。Transformer 作者参与创立的 Cohere 公司推出的大模型 Command-R 在可扩展、RAG和工具使用三个方面具有显著的优势。今天,由 Transformer 作者之一 Aidan Gomez参与创立的人工智能初创公司 Cohere 迎来了自家大模型的发布。Cohere 推出的模型名为「Command-R」,参数量为 35B,它是一个针对大规模生产工作负载的全新大语言模型研究版本。该模型属于「可扩展」模型类别,能够平衡高效率和高精度, 使企业用户超越概念验证,进入生产阶段。
大模型日报(3月12日)https://mp.weixin.qq.com/s/cQB1HeARbJtBNXLdpDMGQA
08

Midjourney上新「换脸魔法」,奥特曼一秒COS罗马将军

Midjourney 刚刚发布的一项新功能 ——「角色参考」(Character Reference),让用户几秒之内可以实现「移花接木」。用过 Stability AI、Midjourney、OpenAI 等公司图像生成产品的人肯定知道,在新生成图像中保持角色一致性曾经是比较困难的事情。AI 会为输入的每一个提示生成新的内容,即使提示重复出现或使用了一些相同的关键词。这非常适合生成全新的内容,但不适用于有叙事连续性的场景。如果你是为电影、小说或漫画书做设计,肯定希望让一个或多个一模一样的角色出现在不同的场景和环境中,且使用不同的面部表情和道具。所以这次,Midjourney 引入了一个新标签「-cref」(Character Reference 的缩写),我们可以将其添加到 Midjourney Discord的文本提示词末尾,让模型从 URL 中匹配角色的面部特征、体型甚至服装。
大模型日报(3月12日)https://mp.weixin.qq.com/s/EabSL_wrviCS1fXYJp4BDg
09

九合创投王啸:中国AI投资外热内冷

九合创投创始人王啸在对话腾讯《深网》时分享了对AI投资和大模型的看法。他认为,早期投资机会隐藏在非共识中,如他曾投资的一流科技。王啸看好大模型的潜力,认为它能提升人类认知和效率,是未来中美竞争的核心。他还提到,中国在算力上有机会弯道超车,芯片领域的突破只是时间问题。王啸强调,人工智能的发展仍处于早期阶段,而硬科技投资的热潮近年来逐渐兴起。他分享了对创业者的期望,包括解决大问题的能力、深刻行业洞察、强学习和自我发展能力。王啸认为,成功是一个过程,而非单一的目标。
大模型日报(3月12日)https://mp.weixin.qq.com/s/TTn01DJfJ6fVrTrPL9D3ww

推特

01

Hartford分享github2file

将GitHub仓库的内容导出到一个文件中,便于使用AI修复bug

Eric Hartford:我写了一个小脚本,可以帮你将GitHub仓库的内容导出到一个文件中,这样你就可以把它粘贴到Claude或Gemini-1.5中,让它帮你修复所有的bug,或者将其移植到Rust或COBOL,或其他任何语言。
大模型日报(3月12日)https://x.com/erhartford/status/1767284737788514724?s=20

02

Schirano分享RepoToTextForLLM

快速将GitHub仓库转换为文本文件


Pietro Schirano:在长上下文大语言模型(LLM)时代,我需要一种方法能够快速地将GitHub仓库转换为文本文件,以便作为提示输入。现在介绍一下RepoToTextForLLMs,它不仅能将整个仓库内容合并为一个文件,还能在文件末尾附加一个超级提示,以便进行分析和理解。

Schirano评论和楼上撞车的工具:
哈哈,典型啊!我刚看了他的仓库,似乎是一种完全不同的方法。很高兴我们能在同一个问题上有这种多样性的思路。

大模型日报(3月12日)https://x.com/skirano/status/1767337182837276949?s=20

03

Query Analysis:当简单的RAG失败以及如何修复


当简单的RAG失败时(以及如何修复)
我在 @anyscalecompute 上分享了一些我们看到人们使用的高级RAG技术
幻灯片:https://docs.google.com/presentation/d/12iRlcv-m47cCxEaIMwexrZ1a1xzg4QE9eUwVoafLvvY/edit#slide=id.g2a22202e9fb_0_167
这里的很多修复可以归类为”查询分析”-请参阅我们关于此的文档:https://python.langchain.com/docs/use_cases/query_analysis/
大模型日报(3月12日)https://x.com/hwchase17/status/1767254621628837958?s=20


04

韩国地方政府正在向老年人和痴呆症患者

部署约7000个AI机器人玩偶

Rowan Cheung:韩国的地方政府正在向老年人和痴呆症患者部署约7000个AI机器人玩偶。
由Hyodal制造的这款售价1800美元的机器人玩偶可以进行完整的对话,以缓解孤独感并提醒用户按时服药。
这听起来有些反乌托邦,但其数据非常有趣:
  1. 研究(涉及9000多名用户)发现,抑郁水平从5.73降至3.14,服药情况从2.69提高到2.87。
  2. 这款玩偶配有一个同伴应用程序和网络监控平台,供看护人员远程监控。
  3. 安装了安全功能,当检测到一段时间内没有移动时会发出警报,基本上始终在监视用户。
  4. 该玩偶还提供触摸交互、24小时语音提醒、签到、语音留言、健康教练、问答游戏、锻炼、音乐等功能。
  5. 看护人员可以访问该应用程序,可以发送/接收语音消息,发布群组公告,并监控运动检测。
在将其交给家人之前,我肯定会对这里的隐私和数据收集有一些顾虑,但该产品实际上看起来非常酷。
观察数据以了解这个想法是否有发展前景将是很有趣的。
请记住,韩国人口老龄化速度很快,出生率是世界最低之一,因此地方政府在这方面成为早期采用者是有道理的。
暂时无法在飞书文档外展示此内容

大模型日报(3月12日)https://x.com/rowancheung/status/1767235363385561577?s=20

05

马斯克:人们应该非常关注AI被编程的偏见

Cuban,LeCun反驳

马斯克:人们应该非常关注AI被编程的偏见

Mark Cuban:
没有任何大语言模型能够完全没有偏见或者绝对客观。我同意@ylecun 的观点。在一个拥有数以百万计模型的世界里,许多带有品牌,许多开源。市场/买家/用户将决定他们在使用中喜欢的”偏见”和”智能”

Yann LeCun:
完全正确。这就是为什么我们需要易于微调的开源基础模型。
大模型日报(3月12日)
大模型日报(3月12日)
大模型日报(3月12日)
大模型日报(3月12日)https://x.com/ylecun/status/1767329852775141598?s=20



06

Cohere发布Command-R

针对大规模生产工作负载优化的新型RAG大语言模型

今天,我们很高兴发布Command-R,这是一个针对大规模生产工作负载优化的新型RAG(检索增强生成)大语言模型。
Command-R属于新兴的”可扩展”模型类别,在高效率和强准确性之间取得平衡,使公司能够从概念验证阶段走向生产环境。
大模型日报(3月12日)https://x.com/cohere/status/1767275128813928611?s=20


07

CovariantAI RFM-1:可以生成视频

但为与世界互动而设计的多模态的任意到任意序列模型

是的,2024年将是机器人技术的重要一年!
介绍一下 @CovariantAI 的RFM-1,它和Sora一样可以生成视频,但RFM-1是为了让机器人与世界互动而设计的。
但它还可以做更多事情。RFM-1是一个多模态的任意到任意序列模型。RFM-1将5种模态标记化:视频、关键帧、文本、传感器读数、机器人动作。任意到任意意味着RFM-1可以在输入端处理任意子集,在输出端生成任意子集。

大模型日报(3月12日)https://x.com/pabbeel/status/1767237552455729657?s=20

论文

01

DriveDreamer-2:

大语言模型增强的世界模型用于多样化驾驶视频生成

世界模型在自动驾驶中表现卓越,尤其在生成多视角驾驶视频方面。本文提出了基于DriveDreamer框架并整合大语言模型(LLM)的DriveDreamer-2,用于生成用户定义的驾驶视频。通过LLM接口将用户查询转换为智能体轨迹,并生成符合交通规则的HDMap。最终,提出统一多视角模型以增强生成的驾驶视频的时间和空间连贯性。DriveDreamer-2是首个生成定制驾驶视频的世界模型,可友好地生成不寻常的驾驶视频,在训练驾驶感知方法方面表现出色。实验结果显示,DriveDreamer-2生成的视频质量超过其他最先进方法,FID和FVD分别为11.2和55.7,相对改善分别达到30%和50%。
大模型日报(3月12日)http://arxiv.org/abs/2403.06845v1

02

V3D:视频扩散模型是有效的3D生成器


摘要:自动生成3D图像近年来备受关注。最近的方法大大加快了生成速度,但通常由于模型容量或3D数据受限,可能会产生较少细节的对象。受视频扩散模型最新进展的启发,我们引入了V3D,利用预训练视频扩散模型的世界模拟能力来促进3D生成。为了充分发挥视频扩散感知3D世界的潜力,我们进一步引入了几何一致性先验,并将视频扩散模型扩展为多视图一致的3D生成器。通过这一改进,最先进的视频扩散模型可以进行微调,使之能够生成环绕对象的360度轨道帧。借助我们的重建管道,我们能够在3分钟内生成高质量的网格或3D高斯函数。此外,我们的方法可以扩展到场景级别的新视角合成,实现对摄像机轨迹在稀疏输入视图下的精确控制。广泛实验证明了所提方法的卓越性能,特别是在生成质量和多视角一致性方面。我们的代码可在https://github.com/heheyas/V3D找到。
大模型日报(3月12日)http://arxiv.org/abs/2403.06738v1

03

揭秘缩放定律之谜:第一部分


缩放定律原则表明损失与模型大小、数据集大小和训练过程中使用的计算资源等变量之间存在幂律关系。这些原则在优化模型预训练的各个方面中起着至关重要的作用,最终有助于大型语言模型如GPT-4、Llama和Gemini的成功。然而,OpenAI的原始缩放定律论文并未披露派生精确缩放定律公式所需的完整细节,其结论仅基于含有15亿个参数的模型。在本技术报告中,我们确认了原始OpenAI论文中提出的缩放定律公式在将模型大小扩展到330亿时仍然有效,但这些公式中的常数系数随实验设置的变化而显著变化。我们细致地识别影响因素,并提供透明、逐步的说明,通过对只含有1M~60M参数的模型进行训练,来估计缩放定律公式中的所有常数项。利用这些估计的公式,我们展示了在33B个参数之前可以准确预测各种属性的能力,包括最小可能的测试损失、达到特定损失所需的最小训练步骤和处理的令牌数量、在任何损失值处具有最佳时间/计算权衡的关键批处理大小,以及带有任意批处理大小的完整测试损失轨迹。
大模型日报(3月12日)http://arxiv.org/abs/2403.06563v1

04

重新构思一切

LLM智能体用于开放式世界视频重新构图

移动设备和社交媒体的大量普及彻底改变了内容传播,短视频越来越普遍。这种转变带来了视频重构的挑战,使其适应不同的屏幕长宽比,突出视频中最引人注目的部分。传统上,视频重构是一个需要专业知识且耗时的手动任务,导致高昂的生产成本。一种潜在的解决方案是采用一些机器学习模型,如视频显著对象检测,来自动化这一过程。然而,由于这些方法依赖于特定的训练数据,它们通常缺乏泛化能力。功能强大的大型语言模型(LLMs)的出现为人工智能能力开辟了新的途径。在此基础上,我们介绍了基于LLM的Reframe Any Video Agent (RAVA),它利用视觉基础模型和人类指令来重新构建视频内容进行视频重构。RAVA分为三个阶段运作:感知阶段,解释用户指令和视频内容;规划阶段,确定长宽比和重构策略;执行阶段,调用编辑工具生成最终视频。我们的实验验证了RAVA在视频显著对象检测和真实世界重构任务中的有效性,展示了它作为AI视频编辑工具的潜力。
大模型日报(3月12日)http://arxiv.org/abs/2403.06070v1

05

为大语言模型编辑概念知识

最近,人们对大语言模型(LLMs)的知识编辑越来越感兴趣。当前的方法和评估主要探讨实例级别的编辑,而LLMs是否具有修改概念的能力尚不清楚。本文首次探索了为LLMs编辑概念知识,通过构建一个新的基准数据集ConceptEdit,并建立一套新的评估指标。实验结果显示,虽然现有的编辑方法可以在一定程度上有效地修改概念级别的定义,但它们也有潜力扭曲LLMs中相关的实例知识,从而导致性能不佳。我们希望这可以激励更进一步的LLMs研究。我们的项目主页位于https://zjunlp.github.io/project/ConceptEdit。
大模型日报(3月12日)http://arxiv.org/abs/2403.06259v1

06

GPT-4 能运行 DOOM 吗?

我们展示了GPT-4在1993年的第一人称射击游戏《毁灭战士》中的推理和规划能力。这个大型语言模型(LLM)仅凭几条指令和由模型自动生成的游戏状态描述(从屏幕截图中得出)就能够运行并玩游戏。我们发现GPT-4可以以通行的水平进行游戏:它可以操作门、与敌人战斗并执行路径规划。采用涉及多个模型调用的更复杂提示策略可以获得更好的结果。尽管还需要进一步的工作才能使LLM比赛玩得像其传统的基于强化学习的对手一样出色,但值得注意的是,GPT-4不需要训练,而是依赖自身的推理和观察能力。我们希望我们的工作推动了基于智能、LLM的游戏智能体在视频游戏中的边界。我们最后讨论了我们工作的伦理影响。
大模型日报(3月12日)http://arxiv.org/abs/2403.05468v1

产品

01

Picurious AI


Picurious 是一款利用 AI 技术的辅助学习应用程序,可以将任何照片转化为学习笔记。它能够快速提供答案、见解,并针对图像提供三个问题,帮助用户识别未知的物体、植物、动物或文字。
大模型日报(3月12日)https://picurious.ai/en/

02

AI Chatbot

AIChatbot 是一个 AI 驱动的对话式聊天机器人,用于销售和客服。它可以自动执行支持票证和交易协助、起草电子邮件、寻找潜在客户、产品推荐和比较等功能。该产品旨在帮助企业灵活应对客户的要求,提高工作效率并节省时间和资源。
大模型日报(3月12日)https://www.aichatbot.so/

03

OptimizerAI

OptimizerAI是一个使用 AI 生成音效的工具。它提供了无限制的免费音效,可以用于游戏制作、视频制作、内容创作等不同场景。用户可以根据需求生成各种完美的免版税音效。OptimizerAI 支持 44.1kHz 立体声高品质音频。后续将推出文本转音效和视频转音效功能。
大模型日报(3月12日)https://www.optimizerai.xyz/

HuggingFace&Github

01

World Model on Million-Length Video and Language with RingAttention

——UC 伯克利推出世界模型

当前语言模型的仍然具有一定的局限性,团队提出了利用视频序列来增强语言建模的方法。视频提供了时间信息,对于理解人类文本知识和物理世界具有吸引力。为了应对挑战,创建了一个包含各种视频和书籍的大型数据集,并使用RingAttention 技术进行训练,逐渐增加上下文大小。主要贡献包括训练了最大上下文大小的神经网络,提出了克服视觉语言训练挑战的解决方案,并开源了一系列参数模型。
大模型日报(3月12日)https://largeworldmodel.github.io/

02

C4AI Command-R

C4AI Command-R 是一个 350 亿参数高性能生成模型。Command-R 是一种大型语言模型,具有开放式权重,针对各种用例进行了优化,包括推理、摘要和问答。同时,它也具有以 10 种语言进行评估的多语言生成功能和高性能 RAG 功能。

https://huggingface.co/CohereForAI/c4ai-command-r-v01

03

Magi—漫画转录

自动完成漫画转录,并生成剧本。 Demo 链接:https://huggingface.co/spaces/ragavsachdeva/the-manga-whisperer/

大模型日报(3月12日)https://github.com/ragavsachdeva/magi

投融资

01

网络安全AI智能体公司「云起无垠」获数千万元天使+轮融资


网络安全AI智能体公司「云起无垠」近日完成了数千万元天使+轮融资,由朗玛峰资本独家投资。该公司专注于将生成式人工智能技术应用于网络安全,已开发出无垠模糊测试智能体和无极AI安全智能体,旨在提高漏洞挖掘、检测和修复的效率。创始人沈凯文拥有丰富的网络攻防经验,公司已获得多项软件著作权和专利,服务于多个行业,并参与国家及行业标准制定。预计到2028年,网络安全行业市场规模将达到484亿美元。
大模型日报(3月12日)https://www.163.com/dy/article/IT0EEDVU05118DFD.html

02

爱诗科技完成亿级人民币A1轮融资,发布爱诗视频大模型

爱诗科技完成了亿级人民币A1轮融资,由达晨财智领投,光源资本担任财务顾问。公司专注于AI视频大模型及其应用,已推出海外版产品PixVerse和国内版爱诗视频大模型。创始人王长虎博士及其团队拥有丰富的计算机视觉和AI经验,致力于提升AI视频生成的准确性和一致性。资金将用于人才建设和技术发展,旨在打造领先的多模态AI企业和视频平台。
大模型日报(3月12日)https://mp.weixin.qq.com/s/arDr7xy2N8y21jPZa4ueYw

03

聚焦原生多模态赛道,生数科技完成新一轮数亿元融资


生数科技近日完成了数亿元的新一轮融资,由启明创投领投,达泰资本、鸿福厚德等跟投。公司专注于原生多模态大模型的研发,包括图像、3D和视频等。核心团队来自清华大学人工智能研究院及科技公司。生数科技是国内外最早开展扩散模型研究的团队之一,提出了全球首个Diffusion Transformer架构,并在多模态大模型领域取得了显著进展。公司已与多家企业合作,并推出了视觉创意设计平台PixWeaver和3D资产创建工具VoxCraft。未来,公司将继续优化基础模型,并探索新的产品形态。
大模型日报(3月12日)https://mp.weixin.qq.com/s/5tbQ0JWL6xjdo3xU5iMZHg
04

正在重塑中的中国创投市场,2024 年会发生什么?

2023年中国创业投资市场经历了深度重塑,募资端资金性质与结构发生改变,政策型LP出资占比超过50%。退出市场出现拥堵,IPO节奏收紧。投资规模下降22%,投资事件数量创十年新低。硬科技和AI领域融资活跃。美元投资减少,投资风口不再。投资机构和创业团队面临洗牌,市场主流资金来源为政府。预测2024年市场将继续由政府资金主导,投资领域多元化,早期投资阶段将受重视。
https://mp.weixin.qq.com/s/was_1Gc0lYIydKPraI9Hpw

学习

01

从Online-Softmax到FlashAttention-1/2/FlashDecoding

再到FlashDecoding++

文章深入探讨了FlashAttention算法的技术细节和发展历程。FlashAttention是一种在大型语言模型(LLM)领域广泛应用的算法,它通过有效的内存和计算优化,显著提高了模型的计算效率和性能。文章从Online Softmax算法开始,详细阐述了FlashAttention的原理,包括其如何通过减少传统自注意力机制(Self-Attention)的计算步骤和内存需求来实现更快、更高效的精确注意力计算。特别是通过将计算过程融合到单个CUDA Kernel中,并利用Tiling技术优化计算,FlashAttention能够有效减少对全局内存的访问,从而在不牺牲模型性能的前提下,显著降低了模型训练和推理过程中的内存占用和计算时间。这一系列优化对于处理大规模数据和模型具有重要意义。
https://zhuanlan.zhihu.com/p/668888063?utm_psn=1750869971390193665

02

Data Industry Primer 数据行业概览

文章提供了对现代数据行业全面的介绍和分析,旨在帮助读者了解数据领域的历史、现状及其生态系统中的重要公司。内容强调了数据行业的碎片化特点,包括数以千计的公司在众多数据细分市场中竞争。文章从IBM创建第一个关系数据库管理系统的历史讲起,经过数据仓库的发展,到达云计算和大数据处理工具的兴起,最终探讨了现代云数据生态系统,包括基于云的数据仓库、大数据处理工具以及像NoSQL这样的灵活存储系统。特别关注了数据管理技术的演进,如Snowflake和Databricks对于现代数据仓库计算与存储分离的影响,以及在处理、存储和分析数据方面的最新趋势。

https://zhuanlan.zhihu.com/p/686488142?utm_psn=1750815606335873024

03

DPO 是如何简化 RLHF 的

文章讨论了DPO(Direct Preference Optimization)算法如何通过巧妙的思路将强化学习的人工反馈(RLHF)训练过程简化。DPO算法通过转换训练流程,将RLHF的两阶段训练简化为单阶段的监督式微调(SFT),有效减少了训练所需的模型数量和复杂性。RLHF通常包括训练奖励模型和使用强化学习算法提升模型得分两个阶段。DPO通过优化损失函数的方式,直接训练大型语言模型(LLM),避免了传统RLHF中的多个步骤和模型,使得训练过程更高效,同时保持了训练质量。这一进展对于提升大型语言模型训练效率和实用性具有重要意义。
https://zhuanlan.zhihu.com/p/671780768?utm_psn=1750907646620917760

04

2024大模型压缩已经发展到什么阶段了?

在2024年,大模型压缩领域取得了重要进展,特别是通过一种名为DB-LLM的双重二值化方法显著提高了大型语言模型(LLMs)的计算效率和性能。DB-LLM通过灵活的双重二值化(FDB)技术,在保持表示准确性的同时引入了灵活性和高效位操作,实现了超低位宽量化的高稀疏性。此外,针对量化后预测中的失真问题,提出了偏差感知蒸馏(DAD)方法,根据不同样本的特点进行不同的关注,平衡知识传递。这些创新使DB-LLM在超低位量化方面大幅超越当前技术,计算消耗额外减少了20%,在存储和计算效率方面取得了显著成果,对于计算资源受限的设备具有重要价值。
https://www.zhihu.com/question/646479230/answer/3427649467?utm_psn=1750934252810915841

大模型日报(3月12日)

原创文章,作者:LLM Space,如若转载,请注明出处:https://www.agent-universe.cn/2024/03/16945.html

Like (0)
Previous 2024-03-12 17:54
Next 2024-03-13 14:06

相关推荐