开源项目 4天前 135 浏览次数 11 评论

卡帕西预言成真!华人团队开源全AI操作系统

量子位

发布了 66 文章

疯狂,太疯狂了~

大神卡帕西预测的「下一代GUI系统」这就水灵灵地实现了?!

玩法相当easy,当你移动鼠标、点击图标或敲键盘时,这个完全由神经网络驱动的操作系统就和咱们平时的电脑一样,能在屏幕上实时显示对应的图形界面。

就是说,AI现在能完全模拟Windows,直接预测下一帧屏幕图像

事实上,卡帕西在今年5月就预言了一波“AI时代的图形用户界面长啥样”。

在他看来,如今和大语言模型(LLM)聊天就像在使用80年代的电脑终端,还没有用上图形用户界面(GUI)。

而在未来,随着AI能力逐渐扩展,GUI将是为每个用户量身打造的流动(fluid)、魔幻(magical)、可交互(ephemeral)的2D画布,就像你专属的操作系统,实时重绘、实时响应

受此启发,5位来自滑铁卢大学和加拿大国家研究委员会的研究人员提出NeuralOS,并打造出了一个可试玩的初版演示demo。

这一最新成果为构建完全自适应的生成式神经接口迈出了重要一步,有望应用于下一代人机交互系统。

那么问题来了——

NeuralOS是靠什么模拟Windows的呢?

关键法宝:RNN+渲染器

据论文介绍,NeuralOS能模拟操作系统界面,靠的是两个核心“技能模块”:

  • 循环神经网络(RNN):用于跟踪计算机的状态变化
  • 基于扩散的神经渲染器(Renderer):负责生成屏幕图像

具体而言,不管用户操作多复杂(如现在打开了哪些软件、鼠标停在哪个位置、光标是箭头还是输入状态等),RNN模块都能跟着“记”下来,保证后续反应不脱节。

然后Renderer渲染器根据前面记下的状态和用户操作(如点击了“浏览器”图标),直接生成对应的屏幕画面(包括窗口弹出、图标变色、菜单展开这些视觉变化)

原理听起来是不是很简单?但为了训练NeuralOS,团队可是下了一番功夫。

为了让它学会模拟操作系统,他们给它准备了一大份“学习材料”——全是Ubuntu XFCE系统(Linux轻量级桌面系统)的操作录像。

内容主要分为两类:

一类是随机生成的用户交互。比如乱点鼠标、随便拖动窗口、无规律敲击键盘,相当于让AI见识“各种可能性”,避免只认固定操作。

另一类是由AI Agent生成的真实交互。这里让AI Agent来模拟人类的正常行为,比如打开浏览器、输入文字、关闭窗口等,让AI学习“符合常理的操作逻辑”。

然后经过RNN预训练——RNN+Renderer联合训练——计划采样——将RNN输入的上下文序列加长这一训练流程后,NeuralOS终于学会了根据之前的帧和用户输入(鼠标、键盘)来预测下一帧屏幕图像。

最后,为了检验NeuralOS真实效果如何,团队选择通过模拟用户操作来测试模型

得出的结论如下:

  • 画面逼真:连续操作时,它生成的界面变化(如从桌面到打开文件夹,再到关闭窗口)看起来和真系统几乎一样。
  • 鼠标响应准:不管是移动鼠标让光标跟着动,还是点击图标触发反应(如点“关机”按钮出现确认窗口),它都能准确对应。
  • 状态转换稳:像启动应用、切换窗口这类“系统状态变化”,它也能可靠模拟(如点“计算器” 图标,就会出现计算器窗口,不会乱出别的东西)

但它目前对键盘的精细操作处理不好,尤其是快速打字时,它可能跟不上每个按键的实时显示,或者出现字母顺序错乱的情况。

下图展示了模型预测状态与真实状态之间的对应关系,主对角线区域有明显高亮,说明模型大多数预测是准确的;但也存在一定比例的偏移预测,说明个别状态存在混淆。

背后团队

NeuralOS论文作者一共5人,其中4位均为华人面孔。

Luke Rivard,目前正在滑铁卢大学计算机科学系读研,研究方向为自然语言处理(NLP)。

这次研究是跟着他导师Yuntian Deng一起合作的。

Sun Sun,目前是加拿大国家研究委员会研究员,同时也是滑铁卢大学兼职教授。

其研究方向为优化、机器学习以及深度学习应用。

Hongyu Guo,本科毕业于上海交大,目前是加拿大国家研究委员会数字技术研究中心的高级研究员。

他曾在渥太华大学获得CS博士学位,目前任该校电气工程与计算机科学学院兼职教授。

其论文多发表于ICML、ICLR、AAAI、IJCAI、ACL、EMNLP、IEEE等顶会期刊,谷歌学术论文总引用量达5000+。

陈文虎(Wenhu Chen),目前是滑铁卢大学计算机科学助理教授。

其研究方向为推理、信息检索、基准与评估等,2022年获得了加拿大的CIFAR AI主席奖,该奖主要由加拿大政府授予在AI领域表现突出的世界顶尖人才。

从2021年起,他还兼职Google Deepmind的研究科学家。

Yuntian Deng,目前是滑铁卢大学助理教授,也是英伟达客座教授。

曾获得哈佛大学博士学位,研究兴趣为自然语言处理和机器学习。

自NeuralOS论文发表后,他们还提供了一个在线体验版本,不过每个用户的操作演示(session)运行时,后台要专门分配一块H100显卡才能跑起来。

从使用指南来看,具体操作手法如下:

  • 将鼠标移入蓝色框内,以与NeuralOS进行交互;
  • 点击(左键或右键),可执行点击操作;
  • 使用键盘输入,可在模拟环境中打字;
  • 调整采样步数,以平衡画面质量与生成速度;
  • 切换“Use RNN”开关,在RNN模式与扩散模式之间切换;
  • 切换“Auto Input”开关,启用自动帧生成功能,即当你将鼠标移入画布并保持静止2秒后自动开始,每0.5秒生成一帧。

连作者本人都表示,本来以为只是一个小demo,但没想到来了太多用户,以至于系统运行缓慢。

不过随着代码开源,一切都还有进一步优化的空间。

虽然现在看起来很粗糙,但它展示了一个新可能——未来的“操作系统”不一定是死板的按钮,而是可以被AI动态“生成”的。

在线体验:
https://neural-os.com/
论文:
https://arxiv.org/abs/2507.08800

— 完 —

量子位 QbitAI

关注我们,第一时间获知前沿科技动态

量子位

量子位

66 文章 9350 浏览次数 9840 粉丝

评论 (11)

用户头像

厉害了!华人AI创新,未来可期!

用户头像

感觉未来世界,AI会是老大,这事儿挺有意思的!

用户头像

这事儿挺有意思的,希望他们能好好利用,别搞啥乱

用户头像

我有点觉得这有点...太不真实,但还是挺有意思的

用户头像

这事儿挺有意思的,希望他们能好好利用!

用户头像

华人厉害!AI未来一定能改变世界!

用户头像

感觉世界要被AI统治了,有点害怕又好奇

用户头像

这简直是人类智慧的巅峰,太棒了!

用户头像

我有点担心,这种创新会不会有点...太快了?

用户头像

简直就是奇迹,未来一定会很精彩!

睡觉动画