大模型日报(11月7日 资讯篇)

我们希望能够搭建一个AI学习社群,让大家能够学习到最前沿的知识,大家共建一个更好的社区生态。

「奇绩大模型日报」知识库现已登陆飞书官方社区:

https://www.feishu.cn/community/article/wiki?id=7355065047338450972

点击「订阅社区精选」,即可在飞书每日收到《大模型日报》每日最新推送

如果想和我们空间站日报读者和创作团队有更多交流,欢迎扫码。

大模型日报(11月7日 资讯篇)

潜空间活动报名

本期活动将在11月9日 10:00开始,我们邀请到的嘉宾是鱼哲,Lepton AI 创始成员,曾在阿里云担任高性能 AI 平台产品负责人,专注于 AI 在多个行业的落地及应用。Lepton AI 致力于建立高效可用的AI 基础设施,让团队更关注于应用构建及落地。在本次分享中鱼哲将带来关于不同AI产品形态对团队的挑战相关的思考,分享主题《Beyond Infra,What matters?—— 不同AI产品形态对团队的挑战》。除嘉宾分享外,每期设置了【匹配合伙人 Cofounder Matching】环节。你可以和 GenAI 时代最有活力的创业者和研究者线下面对面交流,将有机会找到志同道合、有共同创业梦想的小伙伴。报名通道已开启,欢迎扫描下方二维码报名。

大模型日报(11月7日 资讯篇)

资讯

01

Perplexity AI被起诉:AI搜索与创作者权益的平衡

News Corp 对 Perplexity AI 提起诉讼,指控其未经授权使用其内容,涉嫌侵犯版权。争议的核心是 AI 搜索引擎的未来,这些引擎能够从互联网上提取并总结信息,可能会取代传统的搜索引擎。像 Perplexity、Google 的 Gemini 和 OpenAI 的 SearchGPT 等 AI 搜索工具,能够更好地理解用户意图并汇总信息,但也可能威胁到数字经济,尤其是通过剥夺内容创作者的流量和曝光。

现行的版权法可能难以应对 AI 搜索带来的冲击,因为它们通常不保护“事实性”内容。各国政府可能会出台新法律来规范平台如何分享和补偿内容,如澳大利亚和加拿大的媒体议价法。然而,这些法律存在缺陷,主要针对传统媒体,忽视了其他内容创作者的权益。随着 AI 搜索的崛起,建立一个公平的数字内容市场变得愈发迫切,需要确保创作者根据其为 AI 平台提供的价值得到合理的回报。

目前,AI 公司已开始与出版商达成协议,但这些协议多偏向大公司。为了避免未来的监管,行业应当尽早构建一个更加公平的体系,让创作者获得应得的收益。如果这一问题得不到解决,AI 公司可能会继续偏向低成本的内容,从而进一步巩固少数巨头的主导地位,削弱互联网信息的多样性和质量。

htt‍ps://mp.weixin.qq.com/s/DsfIOj6qzDuYd3bU_Zmn0A

02

智源论坛 2024 具身与世界模型专题

在2024智源论坛上,学术界和产业界的专家们围绕具身智能和世界模型展开了深入讨论。会议重点关注以下几个问题:
  1. Scaling Law 在机器人领域的应用:参数规模越大,模型性能越强的“Scaling Law”已在大模型领域得到了验证。如何将这一原则有效应用到机器人领域,是产业面临的挑战。智源研究院的院长王仲远介绍了多模态大模型Emu3,证明了Scaling Law在多模态大模型中的可行性。仉尚航也展示了基于Scaling Law的多模态大模型,如RoboMamba和MR-MLLM,致力于通过构建更强的泛化能力和推理能力,推动机器人技术的进步。
  2. 4D世界模型的探索:具身智能面临的最大问题之一是缺乏足够有效的数据,如何为机器人提供有用的数据成为关键。王鹤教授提出,合成数据和4D数据或许是解决方案。4D数据的使用可以提高机器人的深度感知能力,从而更好地适应复杂的任务。与此同时,谷歌和DeepMind推出的Open X-Embodiment数据集为机器人的ImageNet时刻铺平了道路,RT-1和RT-2模型在此基础上不断取得突破。
  3. 机器人的感知与决策问题:尽管机器人已经能够执行许多复杂任务,但在实际操作中,机器人往往缺乏判断能力。清华大学赵明国教授展示的机器人足球赛中,机器人无法在空门面前判断是否进球,暴露了机器人在灵活决策和动作执行中的短板。解决这一问题的关键在于设计和训练机器人能够根据不同的任务和功能进行有效的协调。
  4. 触觉感知在机器人中的应用:乐聚机器人创始人冷晓琨表示,工业场景中的机器人需求已经足够支撑一个新的产业,而触觉感知技术对于机器人的精准操作至关重要。例如,在装配任务中,机器人需要通过触觉感知来判断螺栓的紧固程度。王煜教授团队在高动态触觉传感器领域的突破,正为机器人的精确操作提供新的支持。
  5. 硬件、数据、算法、芯片的协同进化:具身智能的进步不仅依赖于数据、算法和算力,硬件的革新也是推动该领域发展的关键。智源研究院副院长林咏华在圆桌讨论中提出,尽管每个要素面临挑战,但数据的开放性和标准化尤为重要。学术界和产业界需更多合作,建立低成本且易于复制的数据平台,以促进具身智能的快速发展。
大模型日报(11月7日 资讯篇)
https://mp.weixin.qq.com/s/Ahai0QE_2p-N2w_iLXVmqw
03

专访自变量机器人团队

WALL-A:端到端统一具身大模型
WALL-A被自变量机器人定义为“全球最大规模的端到端统一具身大模型”。其核心优势体现在两个方面:首先,它能处理极为复杂的任务,如拉拉链、整理衣物等,这些任务通常涉及到复杂的物理拓扑结构和大量的随机性。其次,WALL-A具备出色的泛化能力,能在极少的样本下完成任务迁移,适应不同物理环境和动作模式,体现出与传统机器人系统的根本不同。
大统一模型的优势
自变量机器人强调,WALL-A并不仅仅是一个传统意义上的大模型,它采用了“端到端”和“统一模型”的设计理念。端到端的设计意味着从原始的视频和传感器信号到最终的动作控制,所有步骤都由同一个模型完成,避免了分层方法带来的噪声和不一致。统一模型则意味着所有的任务都在同一个模型中进行训练和推理,不需要针对每个任务设计不同的系统或模型,这一方法与传统的机器人技术大为不同。
这与PI的策略非常相似,而这种“端到端”和“统一模型”的设计路线,正是自变量机器人区别于其他竞争者的关键所在。王潜(自变量机器人创始人)指出,这一模型的创新不仅仅是规模上的突破,更是在机器人任务的通用性和泛化能力上的革命。
团队背景与技术探索
自变量机器人的技术团队由一批资深的AI和机器人领域专家组成。王潜,创始人兼CEO,是清华大学的校友,并且是全球最早在神经网络中引入注意力机制的学者之一。他在机器人学习方面的多项前沿研究为公司技术路线的奠定提供了深厚的理论基础。与他一起工作的是联合创始人兼CTO王昊,他在大模型和多模态技术方面具有深厚的背景,并领导了中国首个百亿级大语言模型的研发。
这支团队的优势在于深刻理解机器人技术的瓶颈和挑战,特别是在数据获取和机器人操作领域的困难。自变量机器人从成立之初便致力于推动端到端的统一大模型这一方向,正是因为他们看清了机器人领域发展面临的天花板,认为只有这一方向才能突破现有的技术局限。
Scaling Law:数据质量和规模的挑战
团队对机器人领域的“Scaling Law”也有独特见解。王潜和王昊认为,在大模型的发展过程中,数据的质量比数据量更加关键。尽管大规模数据在某些情况下有助于提升模型的表现,但最终决定模型效果的关键是数据的质量,特别是在机器人任务中,训练数据的多样性和质量比单纯的数据量更为重要。
这种数据质量的关键性在自变量机器人的实践中得到了验证,尤其是在进行大规模训练时,模型在质量较高的数据集上表现出了极大的提升,而在低质量数据集上则表现不佳。这一点与传统理解中的“规模决定一切”有着本质的区别。
通用机器人与具身智能的未来
自变量机器人认为,具身智能的核心是通过与物理环境的互动来实现学习,这种方式能够突破语言模型和视觉模型在理解现实世界中的局限性。他们认为,具身智能模型的普及将为AI领域带来革命性的变化,使得机器人不仅能完成单一的任务,而是能够广泛适应复杂的物理世界中的多种任务,具备更高的通用性和灵活性。
目前,虽然全球有多家初创公司都在开发类似的端到端大模型,国内的自变量机器人却依然是唯一一个完全专注于这一技术路线的公司。他们的目标是通过不断迭代和优化WALL-A模型,最终实现类似“ChatGPT”在机器人领域的突破。
大模型日报(11月7日 资讯篇)

https://mp.weixin.qq.com/s/Mwt-NuGPUcsLSNPxxapdAA

04

OpenAI收购Chat.com

OpenAI已收购域名Chat.com,并将其重定向至其AI聊天机器人ChatGPT页面。根据OpenAI发言人确认的消息,Chat.com是互联网上较早的域名之一,于1996年注册。去年,HubSpot的联合创始人兼CTO Dharmesh Shah以1550万美元购买了该域名,成为历史上第二高的公开域名交易。
去年3月,Shah宣布他已经将Chat.com卖给了一个未透露姓名的买家。直到今天,Shah在X平台发布消息确认OpenAI是买家,并暗示交易可能以OpenAI股票支付。然而,尽管OpenAI收购了该域名,但并未改变其运营,表明OpenAI并未将ChatGPT托管在Chat.com上,因此这次收购并不意味着品牌的重大变化。
大模型日报(11月7日 资讯篇)
https://techcrunch.com/2024/11/06/openai-acquired-chat-com/
05

油管大V Asianometry直击AI创业泡沫

AI创业公司估值过高许多AI创业公司目前的融资估值远高于其实际收入。例如,Sierra公司以40亿美元估值融资,然而其收入与估值不符,市销率高达200倍。类似的高估值还存在于Perplexity AI、Imbue和Glean等公司,这些公司的市销率普遍高达80倍以上,远高于OpenAI的42倍市销率。作者质疑,这些公司是否能为投资者带来相应回报。
名人驱动型融资很多AI初创公司的高估值与创始人的“AI名人”身份有关,而不仅仅是基于公司商业基本面。像Brett Taylor、Ilya Satskover等著名人物的背景成为吸引投资者的重要因素。作者将其与流媒体泡沫时期的名人效应作对比,认为这种依赖名人的融资方式并不一定代表公司本身的价值。
高昂的成本与竞争压力AI应用的经济效益具有挑战性,尤其是训练和运营成本较高。此外,AI技术更新速度快且容易被竞争对手复制,使得早期的技术优势难以维持。作者将其与硬盘驱动器行业的兴衰进行对比,认为AI初创公司面临类似的生存压力。
大型科技公司持续投资尽管创业公司面临泡沫,大型科技公司(如亚马逊、微软、谷歌、台积电)仍在积极投资AI基础设施。这表明,尽管创业公司可能面临困境,但整体AI市场仍然有巨大的发展潜力。
经验丰富的投资者应对泡沫经验丰富的风险投资者能够管理风险,即便部分投资失败,他们也能通过其他策略实现软着陆。例如,Inflection AI虽未成功挑战GPT,但与微软的协议帮助其员工和投资者减少损失。
泡沫的积极意义作者将AI创业公司泡沫视为推动技术创新和市场检验的积极过程。即使很多公司会失败,但这些实验和资本的流入最终会促进更大的发展,少数成功公司将改变行业格局。
大模型日报(11月7日 资讯篇)
https://mp.weixin.qq.com/s/Gq5P7iRshhaxbdiPI0071w

推特

01
00Arxiver开源:包含 138,830 篇 arXiv 论文的多Markdown格式

Composio SWE-Kit:专为编码代理设计的开源工具包和无头IDE,适合希望在企业环境中或个人项目中部署自定义编码代理的开发者

今天,我们很高兴宣布推出 Composio SWE-Kit,这是一款专为编码代理设计的开源工具包和无头IDE!🛠️✨
我们也自豪地分享,使用 SWE-Kit 构建的编码代理已在 SWE Bench 排行榜上实现了最先进的性能,树立了新的标准!
作为开发者,我们深知每位开发者都非常看重灵活性和透明度。因此,我们设计了 SWE-Kit,使其完全可定制,支持100多种应用(如 GitHub、Slack 和 Linear),并兼容所有主流的代理框架和大型语言模型(LLMs)。
这款工具非常适合希望在企业环境中或个人项目中部署自定义编码代理的开发者。
查看我们在 @LangChainAI (LangGraph) 上的最先进代理→ https://composio.dev/swe-kit/
在 @Replit 上查看我们的代理 → https://replit.com/@soham16/Composio-SWE-Agen

大模型日报(11月7日 资讯篇)

https://x.com/KaranVaidya6/status/1854216864874025359
02

3DTopia AI:文本到3D模型,能在几分钟内创建完整的电影场景

3DTopia AI:这个文本到3D模型能在几分钟内创建完整的电影场景!
3D AI 正在前所未有的速度进步!
我坚信,AI驱动的3D将成为AI电影制作的终极工具。我们终于能够在保持一致性的前提下实现完全的创意控制。
虽然还没完全实现,但我们每天都在不断接近这个目标。

大模型日报(11月7日 资讯篇)

https://x.com/EHuanglu/status/1854185357333741872

03

 FLUX1.1 [pro]现已新增高分辨率功能:功能扩展至支持4倍更高的图像分辨率

今天,我们很高兴分享 FLUX1.1 [pro] 现已新增高分辨率功能。其功能扩展至支持4倍更高的图像分辨率(最高达4MP),同时每个样本的生成时间仅需10秒,保持令人印象深刻的效率。
大模型日报(11月7日 资讯篇)
https://x.com/bfl_ml/status/1854187828923531558
04

浏览器使用:开源的网页自动化库,适用于任何大型语言模型

“开源的网页自动化库,适用于任何大型语言模型(LLM)。”

“浏览器使用
开源网页自动化与LLM集成
通过简单的界面,让LLM与网站进行交互。”
大模型日报(11月7日 资讯篇)
https://x.com/tom_doerr/status/1854219509382651991
05

Midjourney分享超酷用例:3D爱好者Moonlitmaverick的作品示例

我们看到许多非常酷的创意工作流程正在使用我们的重新纹理功能和3D建模软件。来看一下3D爱好者Moonlitmaverick的这些作品示例,他使用Zbrush和Midjourney来构想外星世界的生物。
大模型日报(11月7日 资讯篇)
https://x.com/midjourney/status/1854247177100628132

产品

01

Sona

Sona 是一款基于人工智能的转录和总结工具,能够将面对面的对话转化为高精度的文本记录,支持 99 种以上语言。它提供智能总结、实时更新和便捷分享功能,提高用户的生产力,适用于会议、讲座和访谈等场合。
大模型日报(11月7日 资讯篇)
https://sona.wtf/
02

Video Ocean

Video Ocean 是一款快速将文本和图像转化为视频的工具,可以简化视频制作过程。用户只需输入文本或上传图像,便可轻松生成专业级视频,适用于社交媒体、宣传材料和个人项目等。
大模型日报(11月7日 资讯篇)
https://video-ocean.com/

投融资

01

Miros成功获得600万欧元融资,重塑视觉搜索技术

Miros,一家领先的视觉人工智能电子商务搜索解决方案公司,近日宣布完成600万欧元的Pre-Series A融资。此次融资由欧洲复兴开发银行(EBRD Venture Capital)和Tera Ventures领投,爱沙尼亚前总统托马斯·亨德里克·伊尔韦斯(Toomas Hendrik Ilves)等天使投资人参与。
Miros致力于解决全球电子商务中由于顾客无法找到所需商品而导致的巨大销售损失——这一问题规模达到2万亿美元。借助Miros的视觉AI技术,用户可以在不到60秒的时间内通过视觉搜索快速找到商品。Miros的客户包括Carousell(新加坡)、momox fashion(德国)、Jomashop和Revolve(美国)以及Hepsiburada(土耳其)。
这笔资金将用于增强研发、进一步开发技术并扩大市场影响力。Miros计划通过其创新的视觉搜索技术,帮助零售商提供更直观的购物体验,提升产品发现和转化率,从而提高销售业绩和客户忠诚度。
公司官网:https://miros.ai/
大模型日报(11月7日 资讯篇)
https://miros.ai/miros-raises-e6m-to-reimagine-visual-search-technology

推荐阅读

— END —

1.   The theory of LLMs|朱泽园ICML演讲整理

2.   「理论与实践」AIPM 张涛:关于Diffusion你应该了解的一切

3.   「奇绩潜空间」吕骋访谈笔记 | AI 硬件的深度思考与对话

原创文章,作者:LLM Space,如若转载,请注明出处:https://www.agent-universe.cn/2024/11/21676.html

Like (0)
Previous 2024-11-07 18:36
Next 2024-11-08 20:20

相关推荐