欢迎观看大模型日报 , 进 入 大 模 型 日 报 群 和 空 间 站(活动录屏复盘聚集地) 请 直 接 扫 码 。 社 群 内 除 日 报 外 还 会 第 一 时 间 分 享 大 模 型 活 动 。
推特
Chip Huyen新书AI Engineer:人工智能工程建立在机器学习系统设计的基础之上,但侧重于大规模、现成的模型
很高兴与大家分享,我正在撰写一本关于使用基础模型构建应用程序的新书!人工智能工程建立在机器学习系统设计的基础之上,但侧重于大规模、现成的模型。
新的人工智能技术栈(例如,它与传统的ML工程有何不同)
《人工智能工程》计划于2024年末出版。前三章已经在O’Reilly平台上提供:
https://learning.oreilly.com/library/view/ai-engineering/9781098166298/
在为这本书进行研究和写作的过程中,我学到了很多。希望你们会发现这些知识很有用。非常感谢你们的反馈!
https://x.com/chipro/status/1782876713938280822
Anthropic研究:简单的探测可以检测出深伪装的模型
新的Anthropic研究:我们发现,探测(probing)这一简单的可解释性技术,可以检测出被”植入”的”潜伏特工”模型何时会表现出危险行为,即使它们在训练过程中伪装得很安全。
https://anthropic.com/research/probes-catch-sleeper-agents
https://x.com/AnthropicAI/status/1782908989296046210
Aaron Levie:AI代理有能力从根本上改变企业软件的商业模式,这太疯狂了
AI代理有能力从根本上改变企业软件的商业模式。今天,当你构建SaaS产品时,主要的商业模式是销售与服务最终用户相关联的席位。对于”同店”销售,你基本上可以按照客户人数增长的速度增长,或者在你的产品之上添加额外的功能。这种商业模式当然非常棒,从企业软件的最早期就已经存在,并且将永远持续下去。但AI代理人开启了软件中一种全新的商业模式,因为你现在可以以一种与企业直接人数甚至软件外部因素无关的方式增长。这种模式的神奇之处在于,AI供应商实际上可以直接通过直接的生产力收益在企业客户内部发展自己。
例如,想象一个AI代理人可以为一家初创公司产生外向销售需求。传统上,B2B公司会从雇佣一个非常小的团队开始,也许只有一两个人,并以非常渐进的方式增加这个领域的资源——本质上是一个类似于猜谜游戏的过程,你试图预测市场上可能有多少需求,资助新资源的能力,以及雇佣优秀人才所需的时间。在AI代理人的世界里,你只需设定一个预算,然后决定你想以多快的速度增长。这更接近于Google Adwords的商业模式,而不是传统的SaaS服务。对于完全不同的职能部门也是如此,AI代理人可以按照你想要构建的软件项目数量或你想要审查的法律文件数量来开发软件——所有这些都不受公司人数的限制。即使在最初你不希望仅仅因为转向AI而改变需求水平的领域,实际上也会有大量的潜在需求。例如,在前线支持方面,在AI代理人可以回答客户可能提出的更多问题的世界里,你可以看到在AI的世界里,互动量会远远高于现在。
这一切对软件经济学都有重大影响,这意味着AI代理人的商业模式所追求的支出远远大于传统IT。如果软件产品现在直接推动公司的生产力,而不仅仅是支持公司的生产力,随着时间的推移,这可能会导致IT市场规模的阶跃式变化。这太疯狂了。
https://x.com/levie/status/1782808670952440167
Han:Phi 3论文中奇怪的地方
Daniel Han:Phi 3(3.8B)发布了!论文中说它只是一个Llama架构,但我在将它添加到@UnslothAI时发现了一些奇怪的地方:
滑动窗口为2047?Mistral v1为4096。那么Phi mini是否有SWA?(而且是奇数?)最大RoPE位置是4096?
Phi团队和Llama-3团队在MMLU评估方面有很大不同 – 为什么?
Colman Glagovich:有趣的是,优化是如何渗透到通用再现中的。融合的MLP是我以前没有见过的东西。Daniel Han:我认为在一些仓库中已经做了融合MLP – 问题是,如果你获得更大的矩阵,即使FLOP可能会略有增加,也几乎是不可察觉的。最大的问题是在QLoRA期间的VRAM消耗,因为你将去量化缓冲区大小增加了一倍。
https://x.com/danielhanchen/status/1782853167572832650
Raschka分析Phi-3: 秘密武器是经过严格过滤的网络数据和合成数据
Phi-3在训练过程中使用的token数量仅为Llama 3的五分之一(3.3万亿而不是15万亿)。
Phi-3-mini的参数”仅”有38亿,不到Llama 3 8B的一半。
尽管体积小到足以部署在手机上(根据技术报告),但它的性能与更大的Mixtral 8x7B和GPT-3.5相当。(Phi-3 mini可以量化为4位,因此它只需要大约1.8GB的内存。)
秘密武器是什么?根据技术报告,关键在于数据质量而非数量:”经过严格过滤的网络数据和合成数据”。
除了4k上下文窗口版本,还有一个phi-3-mini-128K模型,支持高达128k个token。
有趣的是:Phi-3使用与Llama 2相同的tokenizer,词汇量为32,064。
https://x.com/rasbt/status/1782778273895731213
HuggingFace联创Thomas Wolf谈FineWeb数据集的独特之处:质量重于规模
对FineWeb发布的这种看法是最有趣的反馈之一,也是FineWeb与RedPajama-V2(其规模是前者的两倍!)等更大的数据集截然不同的原因。
令人惊讶的是,150亿token的数据集规模并不十分重要,更重要的是我们为什么要花费大约12万个GPU小时在H100集群上准备/共享一个数据集?
首先,在哪里可以获得用于web规模llm预训练的大规模数据?幸运的是,Common Crawl一直在公开进行大部分爬取/存档网页的工作,否则只有Google/Bing等私人团队才能访问这些工作。
下一个问题是:你能直接在petabyte级的common crawl语料库上训练吗,也许只需从html页面中提取文本并对其进行训练,模型就能解决这个问题?你肯定会拥有最大的数据集之一!
我和参与BigScience/Bloom训练的部分Mistral团队学到的答案是:不行!
正如Sergey在下面所说,你实际上需要一个既大又高质量的数据集。
对于web规模的LLM预训练数据集来说,什么是高质量的,你如何知道自己拥有高质量的数据集?也许我应该只在wikipedia上训练!答案也是否定的。首先,wikipedia太小了,但更重要的是,我们对数据质量的直观认识并不总是反映在模型的性能上,数据过滤的某些方面可能是违反直觉的。
在深入研究这个问题之前,让我举一个违反直觉的行为的例子。在2022年到2023年之间,Common Crawl的 “LLM质量”显著下降,也就是说,”在2022-2023年之间的爬取数据上训练LLM会在一组评估中给出较低的性能”。发生了什么?事实证明,Common Crawl团队一直在更严格地过滤包含成人内容的域名。这并不是你直觉上会考虑的原因,对吧?
那么,你如何知道你有高质量的数据?简单的、有点循环的答案是:你只需在它上面训练。你训练较小的模型,这样就不会(太)昂贵,但仍然是足够大的模型,并且在足够敏感的评估中,可以为在同一数据集上训练的较大模型的质量提供信号:这就是我们在FineWeb中所称的消融模型。
我们使用了哪些消融模型?我们确定了两种训练消融模型的方法:在第一种选择中,我们在280亿token上训练了一个18亿参数的模型,在64个H100上花了大约5小时。在第二种选择中,我们训练了相同的18亿参数模型,但训练时间要长得多,为3500亿token(在64个H100上花了大约2.5天)。请注意,在第二个更大的消融中,我们训练的token数量比GPT3或Bloom训练的还要多。
对于我们探索的许多过滤选项(启发式方法和ML模型),我们训练了一些这样的消融模型,并比较了模型的性能,看看是否看到了改进或回归。总共我们训练了大约200个小的消融模型和15个大的消融模型,总共超过12万GPU小时。
例如,在我们在数据集卡片中包含的性能图中,你可以看到这些评估的结果,其中我们在3500亿token(16万步)上进行训练。
总的来说,这是与简单的原始Common Crawl和RedPajama-V2的主要区别。在后一种情况下,你仍然需要自己完成选择如何过滤数据的工作,而这正是我们想在FineWeb中为社区提供的。
至少是第一个版本,因为我们将FineWeb视为一个资源,我们将随着时间的推移在各个方面进行改进。当然还有更好的过滤,以及同样非常有趣的多语言能力。
最后,我真的需要提到的一项重要的平行工作是Dolma团队的工作,他们一直在不知疲倦地努力改进Dolma的过滤,在我们正在进行的训练中,我们看到上周发布的最新版Dolma非常有前景。我们将在我们目前正在撰写的即将发布的博文中包含这些数字,我们对AllenAI团队的工作感到非常高兴。朋友们,我也很高兴能深入研究你们的数据集!
敬请关注详细介绍我上面提到的所有内容以及其他轶事的博文!
https://x.com/Thom_Wolf/status/1782691683517305226
— Kapathy评论:非常好的长文阅读!爱看!
你只能轻松地测量最后一个,但性能是这三个要素的敏感函数。非常有趣的话题,感谢你的#长文阅读 :)!
https://x.com/karpathy/status/1782798789797101876
Phi-3 Mini 3.8b指令模型发布,在MMLU上得分68.8
Phi-3 Mini 3.8b指令模型发布了!在MMLU上得分68.8,而Llama-3 8b指令模型的得分为66.0(Phi团队自己的评估)。长上下文128K模型也在 https://huggingface.co/microsoft/Phi-3-mini-128k-instruct 上发布了。正在努力将其加入到@UnslothAI 中!需要解除一些融合的线性模块的融合:)
https://x.com/danielhanchen/status/1782790737798861281
资讯
最早实现盈利的AIGC公司,出门问问今日成功登陆港交所
4月24日,历经二次递表的“AI独角兽”出门问问成功在港交所挂牌。出门问问IPO定价为3.8港元/股,截至发稿,出门问问报于每股3.1港元,总市值46.24亿港元。作为全球率先盈利的大模型公司,出门问问的港股IPO也意味着其成为了2024年的”AIGC第一股”。出门问问是一家以AIGC与语音交互技术为核心的大模型公司,主要有AIGC解决方案、AI企业解决方案、智能设备及配件等三大业务板块,已推出多模态大模型”序列猴子”,并应用于旗下魔音工坊、奇妙元、奇妙问等产品。
https://www.cyzone.cn/article/760926.html
微软解锁 Copilot 特性:字符上限最高调至 1.6 万、支持梳理 PDF 等文件内容
微软公司近日通过服务器更新,上调了 Windows 10、Windows 11 系统、网页版以及 Edge 浏览器中 Copilot 的字符上限,最高可以达到 1.6 万个;此外微软还支持附加 PDF 等文件以及集成笔记本。微软最初推出网页版和 Windows 版 Copilot 时,字符上限为 2000 个字符,后来增加到 4000 个字符。而在本次更新之后,Copilot 普通用户在“更有创意”模式下,字符上限调整为 8000 个;而如果订购了 Copilot Pro,字符数可以达到 1.6 万个。
https://www.ithome.com/0/763/801.htm
马斯克:可能在明年年底前出售特斯拉人形机器人 Optimus
特斯拉 CEO 马斯克在财报电话会议上表示,预计在今年底之前,特斯拉的 Optimus 人形机器人将拥有完成“有用的”工厂任务的能力,该公司可能会在 2025 年底前将其对外销售,特斯拉计划今年年底前在其自家工厂率先使用该机器人。
h ttps://www.ithome.com/0/763/778.htm
消息称 AI 搜索初创公司 Perplexity 正寻求筹集至少 2.5 亿美元新一轮融资,估值 25 到30 亿美元
据 TechCrunch 报道,人工智能搜索引擎初创公司 Perplexity 目前正在筹集至少 2.5 亿美元的新一轮资金,估值在25 亿至 30 亿美元之间。早些时候,Perplexity 创始人在义上表示该公司已完成了 6300 万美元的融资,估值超10 亿美元。但多个消息来源表示,该公司实际上还在筹集新一轮资金,以利用其在市场上获得的关注。据消息人士透露,NEA 和 IVP 都是该公司之前的支持者,他们也希望在这一轮更大规模的投资中进行投资。
https://techcrunch.com/2024/04/23/perplexity-is-raising-250m-at-2-point-5-3b-valuation-ai-search-sources-say/
API 上新,Kimi 大模型学会「使用工具」了 | Kimi 开放平台
Kimi 大模型学会「使用工具」了,API 已支持 Tool Calling 功能。开发者们在打造自己的 AI Agents 时,可以让 Kimi 大模型与丰富的自定义外部工具进行交互,打开 AI 应用更大的想象空间。例如,在对话中,当用户问到一家公司的地址时,Kimi 大模型可以调用地图工具,直观地展示这家公司在地图上的具体位置和交通路线;如果用户想要把文稿做成演示文稿,就可以调用 PPT 制作工具;如果用户提出的一道难题需要经过复杂的计算,就可以自动调用专业的数学计算工具……
消息称三星和 AMD 签署价值 4 万亿韩元的 HBM3E 12H 供货协议
根据韩媒 Bridge Economy 报道,三星和 AMD 公司签署了价值 4 万亿韩元(当前约 210.8 亿元人民币)的 HBM3E 供货合同。报道称三星和 AMD 签署的这份合同中,AMD 采购三星的 HBM,而作为交换三星会采购 AMD 的 AI 加速卡,但具体换购数量目前尚不清楚。
https://www.ithome.com/0/763/856.htm
探索基本粒子集,人工智能筛选弦理论近乎无限的可能性
几十年前,弦理论因其美丽的简单性而俘获了许多物理学家的心。该理论称,将一块空间放大得足够远,你将看不到大量的粒子或不稳定的量子场。只会有相同的能量股,振动、合并和分离。到 20 世纪 80 年代末,物理学家发现这些「弦」只能以几种方式跳动,这增加了物理学家追踪从跳舞的弦到我们世界的基本粒子的路径的诱人可能性。弦最深处的「隆隆声」会产生引力子,这是一种假设的粒子,被认为形成了时空的引力结构。其他振动会产生电子、夸克和中微子。弦理论被称为「万物理论」。巴黎索邦大学的弦理论家 Anthony Ashmore 表示:「人们认为迟早可以计算出所有已知的信息。」
但当物理学家研究弦理论时,他们发现了一种可怕的复杂性。当这些理论从简朴的「弦世界」中飞出时,向我们丰富的「粒子和力世界」迈出的每一步都带来了爆炸性的可能性。
现在,新一代研究人员带来了一种新工具来解决这个老问题:神经网络,即推动人工智能进步的计算机程序。近几个月来,由物理学家和计算机科学家组成的两个团队,首次使用神经网络精确计算从特定的微观弦世界中会出现什么样的宏观世界。这一长期寻求的里程碑重振了几十年前停滞不前的探索:确定弦理论是否能够真正描述我们的世界。
产品
Insights by Ayraa
Insights 旨在重新定义用户与工作场所的互动方式。Insights 不仅仅是一个搜索工具,它是工作场所的 AGI 助手,利用生成式人工智能的力量来解锁工作场所活动和数据中困扰着您的洞察力。 Insights 可以帮助用户回答关于工作的各种问题,例如今天应该专注于什么、上周完成了什么任务、上个月参加了多少小时的会议、是否错过了重要的Slack讨论、上周史蒂夫发送的所有电子邮件摘要、本季度的销售关闭率是多少、本周关闭了多少工单等。
https://www.ayraa.io/solutions/insights
SecBrain
SecBrain 是一款 AI 驱动的语音记录应用程序。它能够轻松捕捉想法,并将录音转换为优化文本,同时附带标题和标签,方便进行搜索。此外,它还具有一些神奇的功能,如从 TikTok 或 Instagram 视频生成笔记等,可以帮助用户提高生产力。
https://www.secbrain.ai/
「爱诗科技」完成蚂蚁集团领投A2轮超亿元融资,光源资本担任独家财务顾问
爱诗科技近日完成了由蚂蚁集团领投的A2轮融资,金额超过亿元人民币。此轮融资由光源资本作为独家财务顾问。爱诗科技是一家专注于AI视频生成技术的初创公司,通过这次融资,公司累计一年内获得的融资总额已超2亿人民币,成为该领域资金规模最大的企业之一。此外,公司还发布了全球首创的“C2V角色一致性”功能,进一步推动AI视频技术的应用和发展。
出门问问全球发行股份
出门问问有限公司(Mobvoi Inc.),一家注册于开曼群岛的公司,全球发售股份数为84,568,000股,其中香港发售股份为8,457,000股,国际发售股份为76,111,000股。发售价格最高为每股4.10港元,面值每股0.0000479889美元,股份代号为2438。股份的定价将在定价日通过与联席整体协调人协议方式确定,预计定价日为2024年4月22日。
公司官网:https://chumenwenwen.com/
https://chumenwenwen.com/zh/investor/prospectus
Perplexity即将完成2.5亿美元融资,估值达25亿至30亿美元
人工智能搜索引擎初创公司Perplexity目前正在进行一轮至少2.5亿美元的融资,公司估值介于25亿至30亿美元之间。此前,Perplexity在今年1月和3月已进行了两轮大规模融资,公司估值分别达到了5.4亿美元和10亿美元。此次融资由NEA和IVP等早期投资者领投,资金将用于推动公司在市场上的快速增长。
公司官网:https://www.perplexity.ai/
https://twitter.com/perplexity_ai/status/1782782211399279076
https://techcrunch.com/2024/04/23/perplexity-is-raising-250m-at-2-point-5-3b-valuation-ai-search-sources-say/
深耕日本市场,商用清洁机器人「奇勃科技」获数千万元Pre-A轮融资
商用清洁机器人公司「奇勃科技」宣布完成数千万元人民币的Pre-A轮融资,由金沙江联合资本领投,阿玛拉投资跟投。本轮资金将用于产品研发、团队建设及推进其出海战略。奇勃科技自2021年成立以来,专注于商用清洁机器人的研发与销售,并将重点市场定位于日本,利用当地物业市场的高度统一和劳动力短缺的特点,大力推广其iKitbot ONE产品,以满足日本市场对高标准清洁服务的需求。
公司官网:https://ikitbot.com/
https://36kr.com/p/2745813883878402
大模型日报 16
原创文章,作者:LLM Space,如若转载,请注明出处:https://www.agent-universe.cn/2024/04/15821.html