大模型日报（4月9日资讯篇）

欢迎观看大模型日报，如需进入大模型日报群和空间站请直接扫码。社群内除日报外还会第一时间分享大模型活动。

欢迎大家一起交流！

推特

微软人工智能将在伦敦市中心开设一个新的人工智能中心

英国拥有非凡的人工智能人才和长期以来负责任的人工智能开发文化。今天,我很自豪地宣布开设一个新的办事处:微软人工智能伦敦办事处。如果您想加入我们,请与我们联系。我们正在招聘!

宣布在伦敦成立新的微软人工智能中心

微软最近宣布成立微软人工智能,这是一个新成立的组织,旨在帮助推进我们的消费者人工智能产品和研究,包括 Copilot。在这一消息的基础上,我很高兴地宣布,微软人工智能将在伦敦市中心开设一个新的人工智能中心。微软人工智能伦敦将开展开创性的工作,以推进最先进的语言模型及其支持基础设施,并与微软的人工智能团队以及我们的合作伙伴(包括 OpenAI)密切合作,为基础模型创建世界一流的工具。

这个新的人工智能中心将由杰出的人工智能科学家和工程师乔丹·霍夫曼(Jordan Hoffmann)领导。在加入微软人工智能之前,霍夫曼曾在位于伦敦的 Inflection 和 DeepMind 担任人工智能先驱。霍夫曼将与一群才华横溢的微软人工智能团队成员在我们位于伦敦帕丁顿的办公室共事。

https://x.com/mustafasuleyman/status/1777341903597617506

Santiago分享无代码微调：在不到5分钟内微调一个开源模型

无代码微调太神奇了!观看此视频,了解如何在不到5分钟内微调一个开源模型。无代码微调将帮助公司以闪电般的速度采用人工智能。如果你不熟悉”微调”这个术语,它是教导模型如何解决特定任务的过程。但有一个巨大的问题:微调模型是一个复杂、昂贵的过程。它需要大量的时间、精力和GPU计算。找到有经验的人来做这件事也很难。我录制了这个简短的视频向你展示我如何使用@monsterapis来微调Mistral-7B。在他们的平台上微调模型非常简单。完成后,你可以点击一个按钮来部署模型并开始使用它。你可以对任何开源模型做同样的事情。我有10,000个免费积分提供给在http://monsterapi.ai仪表板上使用代码”SANTIAGO”的任何人。你可以使用这些积分来访问、微调和部署这些开源模型。

https://x.com/svpino/status/1777330825719148546

Stable LM 2 – 12B：多语言模型，性能与 Mixtral 相当

Stable LM 2 – 12B ⚡

> 多语言 – 英语、西班牙语、德语、意大利语、法语、葡萄牙语和荷兰语。

> 性能与 Mixtral 相当。

> 开放访问。

> 发布了基础模型和指令调优模型。

> 指令调优版本可用于工具使用和函数调用。

> 非常适合 RAG(Retrieval-Augmented Generation,检索增强生成)!

> 在 Transformers 🤗 中试用

https://x.com/reach_vb/status/1777437448009597234

Morph：完全开源的 AI 驱动的答案引擎，具有生成式用户界面

介绍 morph:一个完全开源的 AI 驱动的答案引擎,具有生成式用户界面。使用 @vercel 的 AI SDK 构建,它可以提供出色的流式结果。

🧱 技术栈

– 应用框架:@nextjs

– 文本流/生成式 UI:@vercel AI SDK

– 生成模型:@OpenAI

– 搜索 API:@tavilyai

– 组件库:@shadcn/ui

– 无头组件基元:@radix_ui

– 样式:@tailwindcss

https://x.com/miiura/status/1777350693596139546

NanoLLaVA：您口袋里的强大的 1B 视觉语言模型

🎉 隆重介绍 nanoLLaVA:您口袋里的强大的 1B 视觉语言模型🚀💡

🔍 nanoLLaVA 将多模态 AI 的能力压缩到仅 5GB 的显存中,使其非常适合边缘设备。📱💻

🌟 立即体验设备上高效、尖端的视觉理解能力!

https://x.com/stablequan/status/1777375755653300413

语言模型为什么会在搜索方面存在困难？Kanishk Gandhi谈语言模型的数据问题

语言模型在搜索方面存在困难,这不是架构问题,而是数据问题!它们很少看到如何搜索或回溯。我们展示了如何通过将搜索过程表示为扁平化的字符串,即搜索流(SoS),来教导大语言模型进行搜索!

https://x.com/gandhikanishk/status/1777358353045622891

哪些RAG表现最好？ARAGOG：对高级RAG技术最全面的评估调查之一分析：HyDE和LLM重新排序可以提高检索精度

有成千上万的RAG(检索增强生成)技术和教程,但哪些表现最好呢?

Matous Eibich的ARAGOG是对高级RAG技术最全面的评估调查之一,测试了从”经典向量数据库”到重新排序(@cohere, LLM)、MMR(最大边际相关性)以及@llama_index原生高级技术(句子窗口检索、文档摘要索引)的所有内容。

研究发现 💡:

✅ HyDE和LLM重新排序可以提高检索精度

⚠️ MMR和多查询技术似乎没有那么有效

✅ 句子窗口检索、自动合并检索和文档摘要索引(都是@llama_index的原生技术)在检索精度和答案相似性方面都有很大的优势!(同时也有有趣的权衡)。

强烈建议您完整阅读这篇论文。查看:

https://arxiv.org/pdf/2404.01037.pdf

https://x.com/llama_index/status/1777441831262818403

资讯

Meta 下周发布 Llama3 两个版本！

根据 Information，Meta 正计划在下周推出其即将发布的 Llama 3 的两个小版本，这些模型将作为今年夏天预期推出的 Llama 3 最大版本的先行者，发布这两个小型模型很可能会激发人们对即将推出的 Llama 3 的兴趣，该模型将在去年 7 月推出的 Llama 2之后约 1 年推出。

https://mp.weixin.qq.com/s/vU7dB-NT6bfVjcxALLSW0g

不牺牲算法，不挑剔芯片，这个来自中科院的团队正在加速国产AI芯片破局

在国内，生成式 AI 引发的这场算力竞赛也变得愈发激烈。但除了疯狂堆卡，企业还有没有其他更加经济、有效的方法来提升算力，尤其是在 AI 芯片国产化进程加速的当下？对此，中科院计算所编译团队负责人、中科加禾创始人崔慧敏提到了一条鲜有人涉足的路径 —— 编译技术。编译的作用就像一位翻译，它能把高级编程语言翻译成芯片可以理解并执行的机器语言。同时编译器还要做优化，让生成的机器代码运行起来更高效。这种优化的力量有多大？崔慧敏提到，「我们能做到的是在不降低算法精度的情况下，把算力的利用效率给提上来，提供额外的 2~10 倍的性能提升。」这个数字可能超出了很多人的预料，就像崔慧敏所说，「在 AI 这样的负载里面，编译器的作用其实是被远远低估了的。」

https://mp.weixin.qq.com/s/KUoC7lGAy8m8A_6Uz0WkUw

纯C语言手搓GPT-2，前OpenAI、特斯拉高管新项目火了

众所周知，大语言模型还在快速发展，应该有很多可以优化的地方。我用纯 C 语言来写，是不是能优化一大截？也许很多人开过这样的脑洞，现在有大佬实现了。今天凌晨，前特斯拉 Autopilot 负责人、OpenAI 科学家 Andrej Karpathy发布了一个仅用 1000 行代码即可在 CPU/fp32 上实现 GPT-2 训练的项目「llm.c」。GitHub 链接：https://github.com/karpathy/llm.c

消息一出，立即引发了机器学习社区的热烈讨论，项目的 Star 量不到七个小时就冲上了 2000。有网友表示，大佬从零开始用 C 语言写大模型只为好玩，我等只能膜拜。

https://mp.weixin.qq.com/s/YMuq9Jo9Nibl1QFbLNxazg

Nat. Mach. Intell.|设计超高效疫苗，普林斯顿团队开发首个解码mRNA序列大模型

普林斯顿王梦迪团队迎来了一项具有划时代意义的突破，该团队开发了世界首个解码mRNA非翻译区域序列的大模型，用于准确预测从mRNA到蛋白质的转录功能，及设计新序列用于mRNA疫苗。该研究论文的题目是「A 5’ UTR Language Model for Decoding Untranslated Regions of mRNA and Function Predictions」，已被《Nature Machine Intelligence接收。这篇论文意味着大语言模型可以用于预测和设计mRNA疫苗，其中新设计的序列经过实验证实远高于传统疫苗的转录效率。AI和语言模型正在颠覆生物学和制药研究中的传统方法。

https://mp.weixin.qq.com/s/OVRY-R7gROFsGd8krd6fMQ

北大开源最强aiXcoder-7B代码大模型！聚焦真实开发场景，专为企业私有部署设计

从科技圈最新动态来看，最近AI代码生成概念实火。可是，小伙伴们有没有感觉，AI刷程序题比较亮眼，到了企业真实开发场景中，总感觉欠点火候？恰在此时，一位低调的资深大玩家aiXcoder出手了，放出大招：它就是全新开源的代码大模型——aiXcoder-7B Base版，一个专门适合在企业软件开发场景中部署的代码大模型。等等，一个“仅”70亿参数的代码大模型，能展现出什么样的AI编程水平？先看看在HumanEval、MBPP和MultiPL-E三大主流评测集上的表现，它平均得分居然超过340亿参数的Codellama。这个模型不仅打败了一众开源大模型、成为百亿级代码大模型中最强，还有特别的优势：一改传统的“刷题式”代码生成，它专门针对企业级软件项目，在真实开发场景下效果最好——代码生成补全能力、和跨文件能力经过测试，都是No.）。言外之意，aiXcoder-7B不玩“虚”的，可以hold得住企业真实业务场景。

https://mp.weixin.qq.com/s/YujpEG5XyAClLoxOH3yH4Q

联发科推出生成式 AI 服务平台“达哥”，支持“最强繁体中文大模型”MR BreeXe

据联发科官方消息，在今日举行的生成式 AI 论坛期间，联发科生成式 AI 服务平台 MediaTek DaVinci 正式推出，亦称“联发科技达哥”，目前已有超过 40 家厂商加入其生态系统。据悉，该工具最初为集团内部生成式 AI 工具，被广泛应用于软件开发的需求分析和规格设计、人资的自动媒合、财务的报销流程、法务的专利翻译和合约诉讼等，集团渗透率达到 96%。

同时，联发创新基地还发布了该平台最新的繁体中文大型语言模型 MediaTek Research BreeXe（IT之家下文简称 MR BreeXe）。MR BreeXe 以 Mixtral 8x7B 模型为基础开发，继承 Mixtral 多专家模型特有的节省运算资源、提升速度优势，号称在繁体中文测试项目（TMMLU+、MT Bench TW）超越 GPT-3.5，并对台湾地区常见的地端应用进行了“特别优化”。

https://www.ithome.com/0/760/772.htm

杨笛一新作：社恐有救了，AI大模型一对一陪聊，帮i人变成e人

在人类的社交活动中，为了更有效地在工作和生活中与他人沟通，需要一定的社交技能，比如解决冲突。然而，社交技能的练习环境对于大多数人来说通常是遥不可及的。特别是由专家训练这些技能时，往往耗时、投入高且可用性有限。现有的练习和反馈机制很大程度上依赖专家监督，使训练难以扩展。此外，经过专业培训的教练也缺乏，而大多数可以提供定制化反馈的教练无法帮助大量有需要的人。近日，在由斯坦福助理教授杨笛一为共同一作的论文《Social Skill Training with Large Language Models》中，研究者认为，借助大语言模型可以使得社交技能训练变得更容易、更安全、更有吸引力，并在现实、虚拟练习空间中提供量身定制的反馈。

https://mp.weixin.qq.com/s/gGZ3V3ZsMfT8klvuCw7L4g

CVPR 2024 | 分割一切模型SAM泛化能力差？域适应策略给解决了

大语言模型（LLMs）的成功激发了计算机视觉领域探索分割基础模型的兴趣。这些基础分割模型通常通过 Prompt Engineer 来进行 zero/few 图像分割。其中，Segment Anything Model（SAM）是最先进的图像分割基础模型。

将预训练好的 SAM 适应到下游任务主要面临三个挑战：

首先，传统的无监督域自适应范式需要源数据集和目标数据集，由于隐私和计算成本较为不可行。
其次，对于域适应，更新所有权重通常性能更好，同时也受到了昂贵的内存成本的限制。
最后，SAM 可以针对不同种类、不同颗粒度的提示 Prompt，展现出多样化的分割能力，因此当缺乏下游任务的提示信息时，无监督适应将非常具有挑战性。

为了应对上述挑战，港中深提出了一种具有锚点正则化和低秩微调的弱监督自训练架构，以提高自适应的鲁棒性和计算效率。

https://mp.weixin.qq.com/s/KzQTWVGPuSScy_p2J6kqIQ

产品

UI Bakery AI App Generator

UI Bakery 是一个自助低代码平台，允许快速构建定制的 Web 应用程序（内部工具、客户应用程序和管理面板）。最近推出了 UI Bakery AI 应用生成器，这个工具允许在现有数据（目前是 SQL 数据库）的基础上生成功能性的 Web 应用程序，只需指定一个提示。这个工具可以用于创建内部工具、CRUD 应用、管理面板、对数据进行对话式搜索以及原型设计和构思。生成应用程序后，用户可以通过后续提示进行调整或澄清，或者将其转换为 UI Bakery 应用程序，以在 UI Bakery 可视化编辑器中继续开发。

https://uibakery.io/ai-app-generato

Odaptos

Odaptos 提供了一种用于用户体验（UX）研究项目的人工智能工具。他们的人工智能分析可以捕捉传统分析所忽略的情感细微差别，帮助更好地理解用户。该工具的一些关键特性包括自动生成用户会话文本、轻松招募测试参与者、清晰展示用户旅程中的关键时刻、情感视频回放、可用性评分（SUS）、以及一个名为 Oda 的聊天机器人，它可以提供快速摘要和见解。

https://odaptos.com/

投融资

Multiverse学徒制独角兽，收购Searchlight以聚焦AI

Multiverse，一家英国的学徒制独角兽企业，已经收购了AI招聘初创公司Searchlight。此举旨在整合Searchlight的AI技术，以增强多元宇宙的专业培训服务。Searchlight由Kerry和Anna Wang两位双胞胎姐妹共同创立，迄今为止已经筹集了近2000万美元资金，包括2021年的1700万美元A轮融资。多元宇宙在2022年的估值为17亿美元，计划通过此次收购扩大其AI能力，进一步在专业培训领域巩固地位。收购的财务细节未予披露。

公司官网：https://www.searchlight.ai/

https://techcrunch.com/2024/04/08/multiverse-the-apprenticeship-unicorn-acquires-searchlight-to-put-a-focus-on-ai/

Lexverify完成由Midven领投的90万英镑种子轮融资

位于伯明翰的Lexverify，一家使用人工智能驱动的风险管理助手，已成功完成90万英镑的种子轮融资。此轮融资由Midven领投，Midven是Future Planet Capital Group的一部分。其中55万英镑来自Midlands Engine Investment Fund (MEIF 1)通过MEIF西米德兰兹股权基金，另外35万英镑来自Raspberry Ventures、The LegalTech Fund和包括Richard Yorke、Mark Watkin Jones、Jonathan Scudder、Richard Grethe和Karl Wyborn在内的天使投资者。这次投资将使公司能够进行关键的人才招聘，以实现其扩张计划，并已经成功地与金融服务和制药行业的企业进行了试点。

公司官网：https://www.lexverify.com/

https://www.uktechnews.info/2024/03/26/lexverify-secures-900k-seed-investment-led-by-midven/

Lockchain.ai完成460万美元种子轮融资

Lockchain.ai，一家总部位于美国乔治亚州雅典的区块链风险管理平台，借助人工智能技术，已正式结束隐身模式，并在种子轮融资中筹集了460万美元。本轮融资由Lerer Hippeau领投，Arrington Capital、Valhalla Ventures、ARCA、RSE/Vayner、Sonic Boom Ventures、Clear Sky Capital的Alex Weiss以及Artico Search参投，White Star Capital在随后的融资周期中加入。Lockchain.ai旨在为区块链生态系统中的交易者、投资者和基金经理提供自动化风险管理解决方案。

公司官网：https://lockchain.ai/

https://www.thesaasnews.com/news/lockchain-ai-raises-4-6-million-in-seed-round

「原粒半导体」完成新一轮融资，加速大模型算力Chiplet落地

原粒（北京）半导体技术有限公司，一家专注于多模态AI处理器设计技术和Chiplet算力融合技术的创新企业，近日宣布完成数千万元的新一轮融资。本轮融资由一维创投和华峰集团联合领投，中科创星、中关村生态雨林基金、英诺天使和清科创投等老股东集体追加投资。资金将主要用于公司的大模型AI Chiplet研发流片及相关算力产品开发和业务拓展。此次融资标志着原粒半导体在AI Chiplet领域的技术和市场布局将进一步加速。

公司官网:https://calculet.com.cn/

https://news.pedaily.cn/202404/532122.shtml

AI Infra供应商「星凡科技」获近亿元Pre-A轮融资

星凡科技，一家提供一站式行业AGI技术服务，近日完成了近亿元人民币的Pre-A轮融资。本轮融资由盛景嘉成领投，开普云和高捷资本跟投。资金将主要用于服务器产线建设、算力中心项目建设及后期运营，以及大模型推理芯片的研发。星凡科技主要提供以大模型为核心的训练推理一体机和训推集群产品，技术聚焦于算力中心运营全业务场景的LLM-Agent、异构芯片的大模型性能加速中间件开发及模型智能化适配。

公司官网：http://xffuture.com/

https://news.pedaily.cn/202404/532158.shtml