我们希望能够搭建一个AI学习社群,让大家能够学习到最前沿的知识,大家共建一个更好的社区生态。
https://www.feishu.cn/community/article/wiki?id=7355065047338450972
点击「订阅社区精选」,即可在飞书每日收到《大模型日报》每日最新推送
学术分析报告:ResearchFlow — 奇绩F23校友的开发的深度研究产品,PC端进入RFlow的分析报告,可直接点击节点右侧的小数字展开节点,登录后可在节点上直接“询问AI”,进一步探索深度信息
如果想和我们空间站日报读者和创作团队有更多交流,欢迎扫码。
欢 迎 大 家 一 起 交 流 !
行云季宇:谁困住了 AI 产业—— 大型机化的计算机形态与变革的可能性 | 奇绩潜空间活动报名
【奇绩潜空间】 是 GenAI 时代冲得最快的一批科研学者/从业者/创业者聚集的 AI 人才社 区,潜空间定期邀请大模型前沿创业者分享产品实践探索,邀请前沿科研学者分享最新技术进展。
第五季第二期潜空间邀请到的嘉宾是行云创始人兼 CEO —— 季宇 ,在本次活动中季宇将在北京现场与大家面对面交流,他分享的主题是《谁困住了 AI 产业——大型机化的计算机形态与变革的可能性》。
资讯
谷歌逆风翻盘暴击OpenAI,90天王者归来!44页报告押注25年三大技术前沿
在过去的90天里,谷歌实现了从被看作行业笑柄到科技巨头的逆袭,成为突破性产品和最大创新的领军者。特别是其AI产品——Google Gemini系列,迅速获得开发者的青睐,从9月的5%市场份额暴增至50%以上,成为行业领导者。谷歌的Project Mariner、Project Astra等项目也在推动人机交互的未来,展示了强大的AI任务处理能力。特别是在智能体领域,谷歌展现出前所未有的突破,Project Mariner允许Gemini控制浏览器完成任务,极大提升了AI助手的实用性和自主性。
此番逆袭源于谷歌在多个领域的持续创新。例如,AI视频模型Veo 2.0在物理学和指令遵循上远超竞争对手Sora,市值也因此上涨了14%。谷歌不再依赖炒作,而是专注于提升产品的实际能力,成为OpenAI强有力的对手。尤其是在模型性能上,Gemini 2.0 Flash和Veo 2.0的推出,一举超越了GPT-4,展示出惊人的技术优势。
谷歌的反击不仅仅局限于技术产品,报告显示2025年三大主导技术将集中于AI智能体、多模态AI和企业搜索。尤其是智能体的应用前景广阔,预计将在未来几年内催生出巨大的市场机遇。谷歌在多个领域的创新布局,也将加速智能体和多模态AI的发展。例如,通过整合不同类型的智能体,企业能够更高效地完成复杂的任务,推动行业的变革。
此外,谷歌还推出了结合Gemini 2.0的编程助手,Gemini Code Assist,进一步推动了AI在软件开发中的应用。企业级编程工具的推出,整合了GitHub、GitLab等外部系统,大大提升了开发者的工作效率。预计到2028年,90%的企业软件工程师将使用AI编程助手,这将是GenAI的首批重要用例。
Cohere与Palantir合作推出AI模型
Cohere是一家加拿大AI初创公司,其估值在2024年7月达到55亿美元。该公司由《Attention Is All You Need》一文的作者共同创立,这篇文章推动了大规模语言模型(LLM)革命。Cohere专注于为企业客户提供AI解决方案,而不是面向消费市场。
虽然Anthropic公司最近因与Palantir和AWS达成协议而备受关注,但TechCrunch了解到,Palantir也与Cohere建立了合作关系。Cohere的AI模型已在多个未公开的Palantir客户中投入使用。这一消息在Palantir的2024年11月DevCon1开发者大会上由Cohere工程师兼前Palantir员工Billy Trend透露。视频中,Trend提到Cohere正通过Palantir的Foundry平台向商业客户提供其AI技术。尽管未透露具体客户名称,但他强调了与一家具有严格数据存储要求且需要阿拉伯语推理功能的客户合作的实例。
Cohere与Palantir的合作表明,Cohere的AI模型已开始在多个大企业中应用,而Palantir的Foundry平台主要服务商业客户。尽管Cohere与Palantir的合作较为低调,但这一伙伴关系在AI技术的应用上展现了重要潜力,尤其是在满足特定地区和语言需求方面。
值得注意的是,Cohere并未对是否参与军事或情报相关的应用发表评论,而Palantir的客户包括大型企业和美国国防及情报机构。
https://techcrunch.com/2024/12/16/cohere-is-quietly-working-with-palantir-to-deploy-its-ai-models/
FACTS Grounding:评估大型语言模型事实性的新基准
DeepMind最近推出了“FACTS Grounding”基准,这是一个专门评估大型语言模型(LLM)生成的回答是否准确、与提供的文档内容紧密相关且没有幻觉的全新工具。该基准的推出,旨在提高LLM在真实世界应用中的可靠性,解决当前模型在处理复杂输入时可能产生虚假信息(即“幻觉”)的问题。
FACTS Grounding数据集:该数据集包含1719个例子,每个例子都要求模型生成与给定文档高度关联的长篇回答。数据集包括公共集和私人集,其中公共集对外开放,以便所有研究者可以使用它来评估LLM的表现。
多领域覆盖:数据集中的文档涉及多个领域,如金融、技术、零售、医学和法律等,确保输入的多样性。同时,任务包括总结、问答生成和重写等多种类型的用户请求。
自动化评估与判断模型:评估使用了多个领先的LLM判断模型(如Gemini 1.5 Pro、GPT-4o和Claude 3.5 Sonnet),避免了单一模型的偏差。这些模型首先评估回答是否符合用户请求,并根据回答是否完全基于提供文档来判断其准确性。
在线排行榜:DeepMind还推出了FACTS排行榜,展示了各大LLM在基准测试中的表现,用户可以通过Kaggle查看当前排名。此排行榜会随着领域进展持续更新。
持续进化:DeepMind明确表示,FACTS Grounding基准将持续发展,并随着LLM技术进步不断提升要求。该基准的推出是为了推动业界对事实性和信息基础的研究,期望对改进LLM的可靠性发挥重要作用。
新基准的推出:FACTS Grounding为评估LLM的事实性和信息关联提供了全新的框架,有助于提升模型的可靠性和可用性。
数据集与任务多样性:数据集覆盖多个领域,并针对不同任务(如总结、问答等)进行测试,确保模型能够在多种场景中表现出色。
自动化与多模型评估:通过自动化评估和多模型判断,FACTS Grounding能更公正、全面地衡量LLM的表现。
https://deepmind.google/discover/blog/facts-grounding-a-new-benchmark-for-evaluating-the-factuality-of-large-language-models/
OmniAudio-2.6B:全球最快的边缘音频语言模型
Nexa AI发布了OmniAudio-2.6B,这是目前全球最快且最高效的音频语言模型,专为边缘设备部署而设计。该模型集成了Gemma-2-2B、Whisper turbo以及自定义投影模块,能够高效处理文本和音频输入。OmniAudio-2.6B的架构不同于传统的自动语音识别(ASR)和大型语言模型(LLM)串联方法,它将这两种能力整合在一个统一的高效架构中,减少延迟并降低资源消耗。
在2024款Mac Mini M4 Pro上,OmniAudio-2.6B通过Nexa SDK在FP16 GGUF版本中达到35.23 tokens/秒,在Q4_K_M量化版本中更是能达到66 tokens/秒,相比之下,Qwen2-Audio-7B-Instruct在同一设备上通过🤗 Transformers仅能解码6.38 tokens/秒,性能提升达5.5至10.3倍。
创意内容生成:例如,“写一首关于秋天落叶的俳句。”
语气转换:例如,“能不能让这段话听起来更随意一些?”
OmniAudio-2.6B的架构结合了Gemma-2-2B文本处理能力与Whisper turbo音频解码技术。为了有效融合音频与文本,使用了投影模块将Whisper生成的音频标记映射为与Gemma文本嵌入空间维度对齐的序列。此外,OmniAudio-2.6B的训练过程经过了三个阶段:
预训练:使用MLS英语10K转录数据集进行音频与文本对齐。
监督微调(SFT):基于同一数据集进行指令微调,生成更丰富的音频-文本对。
直接偏好优化(DPO):通过GPT-4o API评估初始模型输出,确保模型生成的结果符合预期。
https://nexa.ai/blogs/omniaudio-2.6b
Sakana AI推出革新记忆系统
Sakana AI近期发布了一项重要的研究突破——“进化型通用Transformer记忆系统”(Evolved Universal Transformer Memory),该研究获得了日本经济产业省(METI)GENIAC超级计算资助的支持。通过这一创新,Sakana AI旨在提高现有预训练Transformer模型的效率和性能,尤其在长时间序列任务中,充分展现了基于人类记忆机制的“记忆删除”与“记忆保留”功能。
Transformer模型广泛应用于深度学习,尤其是语言模型(LMs),但其传统架构存在一个问题,即对所有输入数据进行无差别存储,导致在长任务中记忆资源消耗过大,性能下降。Sakana AI提出的Neural Attention Memory Models(NAMMs)模型,通过引入神经网络分类器,智能地决定哪些信息需要保留,哪些需要遗忘,从而极大提高了计算效率与模型表现。
智能记忆系统:通过动态管理记忆,Transformer可以在长时间序列任务中更专注于最相关的信息,避免冗余数据的干扰。
跨领域适用性:NAMMs不仅能应用于语言模型,还能无须额外训练,直接迁移到计算机视觉、强化学习等其他领域。
无训练迁移能力:NAMMs能在不同的Transformer模型之间进行零-shot迁移,即无需重新训练即可优化新模型的性能。
该研究展示了NAMMs在Llama 3 8b基础模型上的应用,通过LongBench、InfiniteBench和ChouBun等基准测试,证明其在处理长文本时表现优异,显著提升了Transformer模型在语言理解和编程任务中的效率与性能。
此外,Sakana AI的这项突破性研究还分享了其训练代码,并发布了新的基准测试集——ChouBun,专门评估日语长内容的处理能力,填补了现有基准测试中的空白。
传感器,赋予机器人感知世界的能力
视觉传感器是具身智能传感器市场弹性最大的一类传感器。双目摄像头提供色彩和深度信息,激光雷达提供精细的环境建模,毫米波雷达能够全天候运行,红外传感器可适应暗光环境。我们认为,不同传感器分别补足了视觉感知不同维度的能力,多传感器融合趋势明晰。同时,为了提高感知能力,单一传感器的单机搭载量亦呈提升之势。考虑摄像头、激光雷达、毫米波雷达、超声波雷达与红外传感器,我们测算至2030年视觉传感器市场空间有望达23.5亿元。视觉传感器中摄像头占比最大,我们认为具身智能放量有望为摄像头厂商带来业绩增量,进而带动图像传感器、光学部件、模组封装等产业链环节共同发展。
力传感器是具身智能传感器市场最大的组成部分。90度深蹲、加减速行走等灵活动作的实现,有赖于力传感器的支持。特斯拉Optimus除灵巧手外,全身28个执行器均配备一个力/力矩传感器,单机搭载量较多。尤其是手、足等多维感知需求较大的部位,更是搭载了价值量更大的六维力传感器,整体力传感器的成本占比较高。我们测算至2030年力传感器市场空间有望达47.9亿元。力传感器中的应变片与弹性体考验厂商的长期经验积累,壁垒高筑,当前市场由外资品牌占据主导地位。但我们观察到国产品牌出货份额亦在逐步扩大,建议关注技术实力较强的国内厂商。
此外,听觉、触觉、编码器、惯导IMU等传感器亦在具身智能环境交互、灵活运动、姿态平衡等方面发挥着重要作用,我们认为有望伴随具身智能出货量的增长实现快速扩容。
具身智能商业化不及预期,传感器技术迭代不及预期,成本下降不及预期。
推特
00 Arxiver开源:包含 138,830 篇 arXiv 论文的多Markdown格式
OpenAI:Realtime API 现在支持 WebRTC——你只需几行代码,就能添加实时功能
就是这样,这条推文完了。Realtime API 现在支持 WebRTC——你只需几行代码,就能添加实时功能。
我们还将价格降低了 60%,引入了 GPT-4o mini(价格是之前的十分之一),提高了语音质量,并使输入更加可靠。
https://x.com/OpenAIDevs/status/1869116812551692778
Curtis分享:只用自然语言,用bolt搭建完整的 3D 编辑器
我在刚过去的周末用 http://bolt.new 搭建了一个完整的 3D 编辑器 —— 只用自然语言 🤯
它由 React、Three.js 和 Rapier 物理引擎驱动。
我相信 AI 很快就能让我们在想到工具的那一刻,就能创造出我们所需要的工具。
https://x.com/XRarchitect/status/1869074516770714024
CrewAI分享:投入生产的多智能体 AI ,一项跨洲际和不同公司规模的客户调研。
了解企业如何构建高精度应用场景、团队推进速度有多快,以及他们使用哪些大型语言模型 (LLM)。
https://x.com/joaomdmoura/status/1869054872232108054
CerebrasCoder:使用 Llama3.3-70b 模型生成网站,速度快到跟你打字一样快
一款开源应用,使用 Llama3.3-70b 模型生成网站,来自 @CerebrasSystems,速度快到跟你打字一样快。
https://x.com/stevekrouse/status/1869029269646835716
产品
Unicorns.club 初创企业可通过社交平台展示其成长并寻找投资
Unicorns Club 是一款革命性的融资平台,旨在打破传统融资壁垒,让初创企业能够更轻松地与投资者建立联系。通过创新的算法和数据驱动的匹配机制,该平台帮助初创企业自动展示自身的潜力和成长轨迹,而无需耗费大量时间和精力进行主动寻找。创始人只需专注于发展核心业务,Unicorns Club 就会通过智能推荐和实时更新,将最合适的投资者带到他们面前。无论企业规模大小,只要具备吸引力,都有机会成为投资界的“超级明星”。这是一个让初创企业和投资者都受益的生态系统,真正实现了融资的民主化和高效化。
https://unicorns.club/?ref=producthunt
AimFox 优化 LinkedIn 潜在客户管理流程
这款智能工具专为销售和业务开发团队设计,通过 AI 驱动的自动化功能优化 LinkedIn 潜在客户管理流程。借助其强大的外拨功能,用户可以启动高度个性化的客户互动活动,从而显著提高转化率。工具支持对多个 LinkedIn 帐户进行自动化操作,将分散的对话整合到一个直观的仪表板中,方便团队集中管理客户关系。更重要的是,它提供连接同步功能,让所有互动数据实时更新,确保团队始终掌握最新进展。这一解决方案不仅提高了运营效率,还为用户在 LinkedIn 上实现无缝的潜在客户开发提供了强大的支持。
https://aimfox.com/?ref=producthunt
投融资
Databricks CEO解释为何推迟IPO:2025年再看
Databricks最近完成了一轮高达100亿美元的融资,这是该公司历史上最大的一轮融资之一。尽管市场上关于Databricks可能会进行IPO的讨论不断升温,CEO Ali Ghodsi表示,他们将推迟至少到2025年才会考虑公开募股(IPO)。Ghodsi在一次活动中指出,2024年是美国的选举年,市场动荡不安,投资者担心利率和通货膨胀问题,因此不适宜在此时进行IPO。
Ghodsi强调,虽然2024年不理想,但Databricks的融资热度并未减弱。在最新的100亿美元融资中,投资者的兴趣异常火爆,原本计划筹集30亿到40亿美元,但由于市场的强烈需求,最终将融资金额提升到了这一庞大的数字。Ghodsi提到,曾看到一张Excel表格显示了19亿美元的投资需求,他几乎不敢相信这一数字。
尽管如此,Ghodsi并没有排除2025年或甚至2026年进行IPO的可能性,但他指出,公开募股已经不像10至15年前那么重要了,公司的融资能力和市场估值已经证明了这一点。他对市场上当前的“AI泡沫”并不感到担忧,并认为其公司能够在未来持续站稳脚跟。
此外,Databricks还积极扩展与竞争对手的差距,曾通过收购Tabular等举措,进一步加强其在数据分析和人工智能领域的竞争力。Ghodsi提到,虽然公司与Snowflake的竞争已告一段落,但他们将继续与Salesforce、Microsoft等企业巨头竞争,并深信数据和AI将在未来发挥越来越重要的作用。
https://techcrunch.com/2024/12/17/its-dumb-to-ipo-this-year-databricks-ceo-explains-why-hes-waiting-to-go-public/
爱诗科技完成近3亿元A+轮融资
爱诗科技完成A2至A4轮融资,总金额近3亿元人民币。此前,A2轮融资由蚂蚁集团投资,近期A3、A4轮融资由北京市人工智能产业投资基金、国科投资及光源资本投资。融资将主要用于提升技术研发能力、扩展算力资源以及建设人才团队,加速产品功能迭代与市场覆盖,持续推动AI视频生成技术的普惠。
https://mp.weixin.qq.com/s/l98BKVRBMIZQdWKeBh0clA
谷歌加入9000万美元投资,以加强非洲的数字基础设施
谷歌最近参与了一轮9000万美元的股权融资,投资对象是Cassava Technologies,这是一家致力于提升非洲数字基础设施的公司。此次投资标志着谷歌在非洲基础设施领域的进一步扩展,尤其是在云计算和AI计算需求日益增长的背景下。
Cassava作为非洲电信公司Econet的子公司,专注于数据中心、光纤宽带网络、可再生能源、云计算和网络安全等数字基础设施项目。谷歌的投资将帮助Cassava强化其资产负债表,推动可持续的盈利增长,并巩固其作为一家具有全球影响力的非洲技术公司的地位。
Cassava的多个业务部门在谷歌的支持下取得了重要进展。尤其是在建设“Umoja”海底光缆项目时,Cassava旗下的Liquid Intelligent Technologies与谷歌合作,帮助该光缆在非洲各国之间铺设网络。此外,Cassava的Liquid C2业务单位与谷歌及Anthropic合作,将先进的云计算、网络安全解决方案以及生成性AI服务引入非洲市场,以推动企业效率和客户体验的提升。
此次9000万美元的投资也是谷歌承诺投资非洲数字经济的一部分,早前谷歌曾宣布计划在非洲投资10亿美元。谷歌通过这笔投资不仅加强了自身在非洲的业务布局,也为非洲及全球其他新兴市场提供了强大的数字基础设施支持。
https://techcrunch.com/2024/12/17/google-joins-90m-investment-into-cassava-to-bolster-africas-digital-infrastructure/
Grammarly收购生产力初创公司Coda,并迎来新CEO
Grammarly宣布收购生产力初创公司Coda,交易细节未公开。在此次交易中,Coda的创始人兼CEO Shishir Mehrotra将接任Grammarly的新CEO。此举不仅标志着Grammarly的战略升级,还将进一步推动其AI助手向全面的“AI生产力平台”转型。
通过此次收购,Grammarly计划将Coda的AI工具和产品整合到其现有平台中,为用户提供新的功能,包括生成性AI聊天和生产力套件。这些新功能旨在提升用户工作效率,并让Grammarly的AI助手更加智能和实用。Grammarly现任CEO Rahul Roy-Chowdhury也宣布将卸任,转而成为Mehrotra的顾问。
Mehrotra是技术行业的资深人士,曾任YouTube的首席产品官和技术官,他在收购后表示,未来的目标是让Grammarly助手不仅能提供写作建议,还能与用户的其他系统(如邮件、文档、CRM等)无缝连接,从而进一步提升生产力。Coda的核心产品Coda Docs也将与Grammarly助手进行整合,推动平台的智能化升级。
Grammarly成立于2009年,拥有4000万活跃用户,估值达到130亿美元;而Coda在2021年完成D轮融资后,估值为14亿美元。通过此次收购,Grammarly将更有力地与其他AI写作和生产力工具公司展开竞争。
https://techcrunch.com/2024/12/17/grammarly-acquires-productivity-startup-coda-brings-on-new-ceo/
— END —
快速获得3Blue1Brown教学动画?Archie分享:使用 Manim 引擎和 GPT-4o 将自然语言转换为数学动画
原创文章,作者:LLM Space,如若转载,请注明出处:https://www.agent-universe.cn/2024/12/28958.html