机器之能报道
编辑:吴昕
视频加载中…
MIT 计算机科学和人工智能实验室 CSAIL 孵化的创业公司—— Liquid AI 终于结束隐身模式,公开与 OpenAI 和其他公司的大型语言模型竞争。
近日,Liquid AI 官宣已筹集 3750 万美元。就种子轮而言,这个数字相当可观。投资人不乏一些大人物,比如 GitHub 联合创始人 Tom Preston Werner、Shopify 联合创始人 Tobias Lütke 和 Red Hat 联合创始人 Bob Young。
融资后,公司估值 3.03 亿美元。
著名机器人学家和计算机科学家、麻省理工学院电气工程和计算机科学系 Andrew 和 Erna Viterbi 教授、MIT CSAIL 主任 Daniela Rus 是这家公司创始人之一。
MIT CSAIL 主任 Daniela Rus 是这家公司创始人之一
「今天开发的许多模型都非常庞大,」Daniela Rus 在夏天接受采访时说。「必须建立越来越大的模型似乎不言而喻。但我们要问,这是真的吗?」
生成式 AI 被认为是最强大的AI 工具之一,但在安全、可解释性和巨大算力等方面存在的明显局限性,导致其很难被用于解决复杂的机器人问题,特别是移动机器人问题。
受仅 1 毫米长秀丽隐杆线虫(简称线虫,不少诺奖得主也为之折腰)神经结构启发,Rus 和实验室的博士后们研发了一种基于线虫神经的新型灵活神经网络——液态神经网络:
和传统神经网络只是在训练阶段学习不同,新型网络可以边工作边学习,会根据观察到的输入改变基本架构,特别是改变神经元的反应速度,不断适应新情况。
四位创始人(从左到右)CEO Ramin Hasani,Daniela Rus,首席科学官Alexander Amini和CTO Mathias Lechner
除了 Daniela Rus,Liquid AI 另三位联合创始人都是 MIT CSAIL 博士后研究人员,都为液体神经网络的发明做出了贡献。
联合创始人兼 CEO Ramin Hasani 进入 MIT CSAIL 从事博士后研究之前,曾是美国最大的基金管理公司之一先锋集团( Vanguard )的首席人工智能科学家。
联合创始人兼 CTO Mathias Lechner 在维也纳工业大学读书时就和 Hasani 一起研究线虫的神经结构。
联合创始人兼首席科学官员 Alexander Amini 是 Daniela Rus 的博士生。
目前公司员工阵容
液体神经网络的想法,源于多年前奥地利维也纳工业大学(Vienna University of Technology) Radu Grosu 教授的实验室。
当时,Hasani 在那里攻读计算机科学博士学位,Lechner 在读硕士学位,两人对绘制秀丽隐杆线虫神经网络的研究产生了兴趣。
线虫仅 1 毫米长,神经系统只有 302 个神经元(人类有大约 860 亿个神经元),位于食物链底层,却能进行一系列高级行为:移动、觅食、睡觉、交配,甚至从经验中学习。
他们意识到,研究线虫的大脑实际上如何工作,也许有助于制造能适应意外情况的弹性神经网络。
秀丽隐杆线虫也是截至2019年,唯一完成连接组(connectome,神经元连接)测定的生物体。
2017年,Daniela Rus 将 Hasani 和 Lechner 挖到了 MIT CSAIL。Rus 和她的博士生 Amini 也加入到液态神经网络的研究中。
他们发现了使液态神经系统成为可能的计算原理,这反过来又启发他们开发出一个简单的软件神经网络。
2020年底,Hasani、Rus、Lechner、Amini 等人发表了一篇题为 Liquid Time-constant Networks 的研究论文,液体神经网络引发不少关注。
去年,他们的研究取得突破性进展,打破了计算瓶颈。这种新型网络可能已经具有足够通用性,在某些应用中取代传统神经网络。10月,以 Closed-form continuous-time neural networks 为题的论文也发表在了 Nature Machine Intelligence 。
今年 3 月,Hasani 和 Lechner 成立了这家初创公司,Rus 担任技术顾问和董事会成员。
所谓液体神经网络,首先是指其架构像液体一样,是动态的,具有高度的灵活性和适应性。
标准的神经网络更像是一层层间隔均匀的水坝,每层水坝上安装了许多阀门(权重)。计算的洪流每经过一层水坝,都要透过这些阀门,汇总后再奔向下一层水坝。
液体神经网络不需要这些水坝。
每个神经元都由微分方程 (ODE)控制。这些微分方程参数会根据观察到的输入而变化(也就是说,基本方程是会变化的)。这个变化过程是一个由「非线性函数」控制的概率过程,以此不断适应新的数据输入,从现场环境中学习。
大多数神经网络的行为在接受训练后就是固定的,这意味着,它们不善于适应新输入的数据流的变化。「液体」网络的流动性使其对意外或嘈杂的数据更具弹性(比如大雨遮挡了自动驾驶汽车上的摄像头视野),也更强大。
和动辄数十亿参数规模的生成 AI 模型相比,液体神经网络的另一个特点是规模小得多。
比如,GPT-3 包含约 1750 亿个参数和约 50,000 个神经元。而针对诸如在室外环境中驾驶无人机等任务进行训练的液体神经网络可以包含少至 20,000 个参数和不到 20 个神经元。
今年早些时候,Rus 和 Liquid AI 根据专业无人机飞行员收集的数据训练了一个液体神经网络,然后部署在飞行器上,在一系列户外环境(包括森林和人口稠密的城市社区)中进行远距离目标跟踪和其他测试。结果击败了其他经过训练的导航模型。此外,液体神经网络是唯一一个可以在没有任何微调的情况下可靠地泛化到它从未见过的场景的模型。
从计算的角度来看,更少的参数和神经元也使得液态神经网络对算力需求没那么可怕。理论上,被用于自动驾驶汽车的液体神经网络可以在 Raspberry Pi 上运行。他们不需要云,可以在各种机器人硬件平台上运行。
第三,由于尺寸小,架构也简单,液体神经网络也有可解释性方面的优势。
毕竟,弄清楚液体神经网络内每个神经元的功能比弄清楚 GPT-3 中 50,000 个左右神经元的功能更容易。
液体神经网络也有局限性。和其他神经网络不同,液态神经网络青睐「时间序列」数据。
Rus 和 Liquid AI 团队成员声称,该架构适合分析随时间波动的任何现象,包括视频处理、自动驾驶、大脑和心脏监测、金融交易(股票报价)和天气预报等。
只要存在包含序列数据的数据集(例如视频),就可以训练液体神经网络。在实时分析这些数据,并利用它们来预测未来的行为上,液体神经网络比其他最先进的时间序列算法要高出几个百分点。
但是,这个方案并不适用于由静态数据项组成的数据集,比如 ImageNet 。
新方法将如何与 OpenAI 等竞争对手的主流模型相抗衡还有待观察。
Hasani 表示,目前,Liquid AI 没有计划为消费者开发像 ChatGPT 这样的应用程序。公司首先关注希望为金融和医学研究建模的企业客户。
这是我见过的最令人印象深刻的 MIT 科学家群体之一。一些投资人表示,他们被 Liquid AI 的神经网络方法所吸引–——神经网络技术减少了很多「蛮力冗余」,更像是人类的思想。
融资是为了建立下一个模型。从目前所看到的一切来看,如果它能够正确扩展,可能是一项突破性技术。
参考链接
https://www.liquid.ai/#team
https://techcrunch.com/2023/08/17/what-is-a-liquid-neural-network-really/
https://news.mit.edu/2021/machine-learning-adapts-0128
https://www.bostonglobe.com/2023/12/06/business/liquid-ai-boston-chatgpt/
https://techcrunch.com/2023/12/06/liquid-ai-a-new-mit-spinoff-wants-to-build-an-entirely-new-type-of-ai/