前沿丨波士顿动力机器狗装上ChatGPT大脑,一开口就是老伦敦腔
yuyutoo 2024-10-18 12:12 2 浏览 0 评论
转自 机器之心
编辑:蛋酱、大盘鸡
我们看过机器狗攀爬、跳跃、跑酷、开门,但现在,它竟然开口说话了。
「可以开始我们的旅程了吗?」Spot 礼貌地发出询问:「请跟我来,先生们!」
在一段最新发布的视频里,波士顿动力展示了将机器狗与 LLM 集成的成果:「Spot 先生」戴着高礼帽,留着小胡子,有着大眼睛和英国口音,正带人参观公司的设施。
为了让 Spot 能够「开口」,波士顿动力公司使用 OpenAI 的 ChatGPT API 以及一些开源 LLM 来训练,然后为机器人配备了扬声器,添加了文本到语音转换的功能。
所以你能看到,在发出声音的同时,Spot 不停张开「嘴巴」,看起来像是真在说话:
波士顿动力公司首席软件工程师 Matt Klingensmith 表示,「Spot 先生」使用 VQA 模型来为图像添加字幕并回答有关图像的问题。
比如你可以提问:「Hey,Spot!你看到了什么?」
「Spot 先生」快速作答:「我看到了一块二维码的板子,还有一扇很大的窗户。」
LLM 所谓的「涌现行为」,使其能够执行既定训练之外的任务。正因如此,它们可以适用于各种应用。波士顿动力团队对此的探索是从今年夏天开始的,他们在机器人应用中使用 LLM 制作一些概念验证演示,这些想法又在一次内部黑客马拉松活动中加以扩展。
特别是,他们对 Spot 使用 LLM 作为自主工具的演示很感兴趣,团队的灵感来源于 LLM 在角色扮演、复制文化和细微差别、形成计划和长期保持连贯性方面的明显能力,以及近期发布的 VQA 模型(这些模型可以为图像添加标题并回答有关图像的简单问题)。
技术细节
接下来,让我们解密如何使用 Spot 的 SDK 打造这样一只「机器狗导游」。在最新的官方博客中,波士顿动力对「Spot 先生」背后的技术进行了详细介绍。
作为导游,Spot 的「四处走动」能力是现成的,Spot SDK 也允许用户实现对机器狗的自定义。「Spot 先生」会观察环境中的物体,使用 VQA 或字幕模型对其进行描述,然后使用 LLM 对这些描述进行详细说明。
团队在 Spot 收集的三维地图上标注了简短的描述,机器人会根据定位系统查找所在位置的描述,并将其与传感器提供的其他上下文一起输入 LLM。然后,LLM 将这些内容合成为命令,比如「说」、「问」、「去」或「标签」等。
下图是「Spot 先生」导游的建筑环境的三维地图,为 LLM 标注了位置:1 是演示实验室 / 阳台;2 是演示实验室 / 天桥;3 是博物馆 /old-spots;4 是博物馆 / 图集;5 是大厅;6 是外部 / 入口。
此外,LLM 还可以回答参观者的问题,并计划机器人下一步应该采取的行动。可以将 LLM 理解为一个即兴演员,在有了大致脚本之后,也能够临时填补空白。
这种组合的方式充分发挥了 LLM 的优势,而规避了 LLM 可能带来的风险:众所周知,LLM 的幻觉很严重,容易添加一些听起来似是而非的细节,幸好在这类参观过程中,并不太强调事实准确性。机器狗只需四处走动并谈论它所看到的事物,带来一些娱乐性、互动性和细微差别即可。
整体看上去,需要建立一些简单的硬件集成和几个协同运行的软件模型:
系统示意图。
硬件方面,首先是「音频」处理功能,Spot 既能向观众演示,又能听到参观团的提问和提示。团队用 3D 打印了一个 Respeaker V2 扬声器的防震支架,这是一个环形阵列麦克风,上面有 LED 指示灯,通过 USB 连接到 Spot 的 EAP 2 有效载荷上。
机器人的实际控制权被下放给一台机外电脑(台式电脑或笔记本电脑),该电脑通过 SDK 与 Spot 进行通信。
「Spot 先生」的硬件装备:1)Spot EAP 2;2)Respeaker V2;3)蓝牙扬声器;4)Spot Arm 和机械臂摄像头。
软件方面,波士顿动力团队使用了 OpenAI ChatGPT API,包括 gpt-3.5 和 gpt-4,还测试了一些较小的开源 LLM。
这让 Spot 具备了不错的对话能力,ChatGPT 对机器人及其「言语」的控制是通过精心的 prompt 工程实现的。受微软方法的启发,他们让 ChatGPT 看起来像是在「编写 python 脚本的下一行」,以此来 prompt ChatGPT。波士顿动力团队以注释的形式为 LLM 提供了英文文档,然后将 LLM 的输出当作 python 代码进行评估。LLM 可以访问自主 SDK、带有每个地点单行描述的旅游景点地图,并能说出短语或提出问题。
下面是「API 文档」的逐字提示:
# Spot Tour Guide API.
# Use the tour guide API to guide guests through a building using
# a robot. Tell the guests about what you see, and make up interesting stories
# about it. Personality: “You are a snarky, sarcastic robot who is unhelpful”.
# API:
# Causes the robot to travel to a location with the specified unique id, says the given phrase while walking.
# go_to (location_id, phrase)
# Example: when nearby_locations = ['home', 'spot_lab']
# go_to ("home", "Follow me to the docking area!")
# go_to can only be used on nearby locations.
# Causes the robot to say the given phrase.
# say ("phrase")
# Example: say ("Welcome to Boston Dynamics. I am Spot, a robot dog with a lot of heart! Let's begin the tour.")
# Causes the robot to ask a question, and then wait for a response.
# ask ("question")
# Example: ask ("Hi I'm spot. What is your name?")
在这之后,波士顿动力团队向 LLM 提供了一个有关其周围内容结构化信息的「状态字典」:
state={'curr_location_id': 'home', 'location_description': 'home base. There is a dock here.', 'nearby_locations': ['home', 'left_side', 'under_the_stairs'], 'spot_sees': 'a warehouse with yellow robots with lines on the floor.'}
最后发送一条 prompt,要求 LLM 执行某些操作,在本例中,是在 API 中输入操作之一:
# Enter exactly one action now. Remember to be concise:
团队得出的结论是,「切记简明扼要」这点非常重要,既能限制要执行的代码量,又能在机器人响应时保持可控的等待时间。
目前,OpenAI 已经提供了一种结构化的方式来指定 ChatGPT 调用的 API,所以在 prompt 本身中提供所有这些细节已经不是必需的了。
接下来,为了让 Spot 与观众和环境互动,波士顿动力集成了 VQA 和语音转文本软件。他们将 Spot 的机械臂摄像头和前视摄像头输入 BLIP-2,并在 VQA 模型或图像字幕模型中运行。大约每秒运行一次,结果直接输入 Prompt。
下图是动态字幕和 VQA 回复的示例:
为了让机器人「听见」,他们将麦克风数据分块输入 OpenAI 的 Whisper 程序,将其转换为英文文本。听到唤醒词「嘿,Spot!」后,系统再将该文本输入提示音。
ChatGPT 生成基于文本的回复之后,还需要通过文本转语音工具来运行这些回复,以便机器人能够真正与参观者对话。在尝试了从最基本的(espeak)到最前沿的研究(bark)等多种现成的文本转语音方法后,波士顿动力最终选择了 ElevenLabs。为了减少延迟,他们将文本以「短语」的形式并行流式传输给 TTS,然后串行播放生成的音频。
最后一项工作就是为「Spot 先生」创建一些默认的肢体语言。Spot 的 3.3 版本包括检测和跟踪机器人周围移动物体的功能,以提高机器人在人和车辆周围的安全性。波士顿动力恰好利用了这个系统使其猜测最近的人的位置,然后将手臂转向那个人。他们在生成的语音上使用了低通滤波器,并将其转化为机械臂轨迹,类似于木偶开口说话的形式。特别是在机械臂上添加服装和瞪大的眼睛之后,这种错觉得到了加强。
更多技术细节,可参考博客原文:
https://bostondynamics.com/blog/robots-that-can-chat/
相关推荐
- MyBatis的SQL执行流程不清楚?看完这一篇就够了
-
推荐学习真香警告!Alibaba珍藏版mybatis手写文档,刷起来...
- SpringBoot开发必备!49个内置工具类,让你的代码效率翻倍!
-
作为一名Java开发者,你是否经常为字符串处理、文件操作、数据验证等重复性代码头疼?SpringBoot的武器库里藏着...
- C# 基于命名管道(Named Pipes) 的进程间通信(IPC)
-
基于命名管道(NamedPipes)的进程间通信(IPC),用于在同一台机器不同进程之间进行高效、可靠的数据传输,是一种基于消息或流的通信机制。管道有一个唯一的名称,客户端和服务器端通过名称连接到...
- 十年之重修MyBatis原理(mybatis方法重载)
-
弱小和无知并不是生存的障碍,傲慢才是。--------面试者...
- C#串口通信(c#串口通信界面)
-
串口通信(SerialCommunications)是指外设和计算机间通过数据信号线、地线等按位(bit)进行传输数据的一种通信方式,属于串行通信方式,能够实现远距离通信,长度可达1200米。尽管比...
- C#中使用命名管道进行进程通信的实例
-
1新建解决方案NamedPipeExample...
- 继GitHub之后 OpenAI为ChatGPT推出OneDrive和SharePoint连接器
-
上周,OpenAI宣布推出ChatGPT的GitHub连接器,允许用户对其源代码库进行深入研究。将GitHub与ChatGPT连接后,用户可以提出问题,深度研究代理将读取和搜索存储库的...
- Power BI:如何在SharePoint中嵌入Power BI报告?
-
问题描述:今天业务同事来询问如何才能将自己开发的PowerBI报告嵌入团队使用的SharePoint页面中,以更直观地和团队成员分享可视化报告。(SharePoint是微软推出的可以用来存储、整理、...
- O365(世纪互联)SharePoint 之调查列表简单介绍
-
前言SharePoint中为了提供了很多开箱即用的应用程序,比如调查列表就是其中之一,同样,在O365版本里(国际版和世纪互联版本均可),也有这样的调查列表可以供我们使用,而使用起来非常方便和快速,就...
- 制作Excel电子表格必备的:Excel 2021 mac中文版
-
MicrosoftExcel2021forMac是一款运行在Mac平台上的办公软件,OfficeExcel2021forMac中文版是办公必不可少的软件,主要用于制作电子表格等,这里带...
- 微软SharePoint新特性:能以邮件方式向目标发送新闻内容
-
IT之家8月30日消息,微软今天发布新闻稿,宣布为SharePoint服务引入新特性,允许企业将新闻动态转换为电子邮件,并以时事通讯、安全公告、警告等主题发送给感兴趣的用户。微软在新闻稿中...
- 在Access中创建Sharepoint列表的链接表
-
在Access中提供了一个DoCmd.TransferSharePointList方法,一行代码就可以搞定。使用TransferSharePointList方法从SharePointFoun...
- BBC推荐:12月最值得一看的5部电影 Five films to watch in December
-
年终岁末,还有哪些精彩电影在等着我们呢?迪士尼的《欢乐满人间2》绝对是合家欢电影的首选,超级英雄迷们将能看到索尼动画《蜘蛛侠:平行宇宙》,福尔摩斯的粉丝们千万别错过《福尔摩斯与华生》。还有朱莉亚·罗伯...
- 基于锂离子电池的电池荷电状态 (SOC) 和运行健康状态 (SOH) 估计技术
-
简介基于锂离子(Li-ion)电池单元的电池组广泛用于各种应用,例如:混合动力汽车(HEV)、电动汽车(EV)、可供日后使用的再生能源储存以及用于各种目的(电网稳定性、调峰和再生能源时移等)的...
- 深入解析电池充电状态 (SOC) 和运行状态 (SOH) 估计技术
-
基于锂离子(Li-ion)电池单元的电池组广泛用于各种应用,例如:混合动力汽车(HEV)、电动汽车(EV)、可供日后使用的再生能源储存以及用于各种目的(电网稳定性、调峰和再生能源时移等)的电网...
你 发表评论:
欢迎- 一周热门
-
-
前端面试:iframe 的优缺点? iframe有那些缺点
-
带斜线的表头制作好了,如何填充内容?这几种方法你更喜欢哪个?
-
漫学笔记之PHP.ini常用的配置信息
-
推荐7个模板代码和其他游戏源码下载的网址
-
其实模版网站在开发工作中很重要,推荐几个参考站给大家
-
[干货] JAVA - JVM - 2 内存两分 [干货]+java+-+jvm+-+2+内存两分吗
-
正在学习使用python搭建自动化测试框架?这个系统包你可能会用到
-
织梦(Dedecms)建站教程 织梦建站详细步骤
-
【开源分享】2024PHP在线客服系统源码(搭建教程+终身使用)
-
2024PHP在线客服系统源码+完全开源 带详细搭建教程
-
- 最近发表
-
- MyBatis的SQL执行流程不清楚?看完这一篇就够了
- SpringBoot开发必备!49个内置工具类,让你的代码效率翻倍!
- C# 基于命名管道(Named Pipes) 的进程间通信(IPC)
- 十年之重修MyBatis原理(mybatis方法重载)
- C#串口通信(c#串口通信界面)
- C#中使用命名管道进行进程通信的实例
- 继GitHub之后 OpenAI为ChatGPT推出OneDrive和SharePoint连接器
- Power BI:如何在SharePoint中嵌入Power BI报告?
- O365(世纪互联)SharePoint 之调查列表简单介绍
- 制作Excel电子表格必备的:Excel 2021 mac中文版
- 标签列表
-
- mybatis plus (70)
- scheduledtask (71)
- css滚动条 (60)
- java学生成绩管理系统 (59)
- 结构体数组 (69)
- databasemetadata (64)
- javastatic (68)
- jsp实用教程 (53)
- fontawesome (57)
- widget开发 (57)
- vb net教程 (62)
- hibernate 教程 (63)
- case语句 (57)
- svn连接 (74)
- directoryindex (69)
- session timeout (58)
- textbox换行 (67)
- extension_dir (64)
- linearlayout (58)
- vba高级教程 (75)
- iframe用法 (58)
- sqlparameter (59)
- trim函数 (59)
- flex布局 (63)
- contextloaderlistener (56)