Embodied-AI-Guide/README.md

25 KiB
Raw Permalink Blame History

具身智能入门指南 Embodied-AI-Guide

Embodied AI具身智能入门的路径以及高质量信息的总结期望是按照路线走完后新手可以快速建立关于这个领域的认知希望能帮助到各位入门具身智能的朋友欢迎点Star、分享与提PR🌟~
Embodied-AI-Guide, Latest Update: Dec 29, 2024 】 GitHub repo stars

Contents - 目录

1. Start Up - 从这里开始

具身智能是指一种基于物理身体进行感知和行动的智能系统,其通过智能体与环境的交互获取信息、理解问题、做出决策并实现行动,从而产生智能行为和适应性。

How - 如何食用这份指南

我们希望的是帮助新人快速建立领域认知,所以设计理念是:简要介绍目前具身智能涉及到的主要技术,让大家知道不同的技术能够解决什么问题,未来想要深入发展的时候能够有头绪。

About us - 关于我们

我们是一个由具身初学者组成的团队,希望能够通过我们自己的学习经验,为后来者提供一些帮助,加快具身智能的普及。欢迎更多朋友加入我们的项目,也很欢迎交友、学术合作,有任何问题,可以联系邮箱chentianxing2002@gmail.com

🦉Contributors: 陈天行 (25' 港大PhD), 邹誉德 (25' 上交-浦江实验室联培PhD), 陈思翔 (25' 北大PhD), 叶雯 (25' 中科院自所PhD), 陈攒鑫 (深大本科生), 彭时佳 (深大本科生), 王冠锟 (港中文-华为联培PhD), 吴志杰 (港中文PhD), 朱宇飞 (25' 上科大Ms).

2. Useful Info - 有利于搭建认知的资料

  • 具身智能基础技术路线-YunlongDong [2]: PDF, bilibili

  • 社交媒体:

    • 可以关注的公众号: 石麻日记 (超高质量!!!), 机器之心, 新智元, 量子位, Xbot具身知识库, 具身智能之心, 自动驾驶之心, 3D视觉工坊, 将门创投, RLCN强化学习研究, CVHub

    • AI领域值得关注的博主列表 [3]: zhihu

  • Robotics实验室总结 [4]: zhihu_1, zhihu_2

  • 具身智能会投稿的较高质量会议与期刊RSS, TRO, Science Robotics, IROS, ICRA, ICCV, ECCV, ICRA, AAAI, ICML, CVPR, NIPS, ICLR, IJRR, ACL等。

  • 斯坦福机器人学导论:website

  • 共建全网最全具身智能知识库 [6]: website

  • 社区:

    • DeepTimber Robotics Innovations Community, 深木科研交流社区: website
    • 宇树具身智能社群: website
    • Simulately: Handy information and resources for physics simulators for robot learning research: website
    • DeepTimber-地瓜机器人社区: website
    • HuggingFace LeRobot (Europe, check the Discord): website
    • K-scale labs (US, check the Discord): website

3. Algorithm - 算法

3.1 Common Tools - 常用工具

这个部分是关于具身中常用技巧的分享

  • 点云降采样: zhihu, 包括随机降采样、均匀降采样、最远点降采样、法线空间降采样等需要了解清楚每一种降采样的优劣这个技巧的选择对于3D应用来说是至关重要的。
  • 手眼标定:github手眼标定用于确定相机和机械臂之间以及相机与相机之间的相对位置大部分Project的开始都需要做一次手眼标定分为眼在手上和眼在手外。
  • URDF生成CSDN指导如何通过SolidWorks装配体出发生成机器人URDF文件。
  • cuRobocuRobocuRobo是Nvidia的一个利用 CUDA 加速的机器人库提供了一套高效的机器人算法主要通过并行计算显著提升性能包括但不限于IK碰撞检测路径规划等。
  • IKFastIKFast经典IK库。
  • mplibmplibManiskill Benchmark以及Sapien仿真平台的IK库。

3.2 Foundation Models - 基础模型

以下是部分具身智能中常用的基础模型, 计算机视觉中发展的非常好的工具可以直接赋能具身智能的下游应用。

  • CLIP: website, 来自OpenAI的研究, 最基本的应用是可以计算图像与语言描述的相似度, 中间层的视觉特征对各种下游应用非常有帮助。

  • DINO: DINO repo, DINO-v2 repo, 来自Meta的研究, 可以提供图像的高层视觉特征, 对corresponding之类的信息提取非常有帮助, 比如不同个体之间的鼻子都有类似的几何特征, 这个时候不同图像中关于不同鼻子的视觉特征值可能是近似的。

  • SAM: website, 来自Meta的研究, 可以基于提示点或者框, 对图像的物体进行分割。

  • SAM2: website, 来自Meta的研究, SAM的升级版, 可以在视频层面持续对物体进行分割追踪。

  • Grounding-DINO: repo, 在线尝试, 这个DINO与上面Meta的DINO没有关系, 是一个由IDEA研究院做了很多不错开源项目的机构开发集成的图像目标检测的框架很多时候需要对目标物体进行检测的时候可以考虑使用。

  • Grounded-SAM: repo, 比Grounding-DINO多了一个分割功能, 也就是支持检测后分割, 也有很多下游应用, 具体可以翻一下README。

  • FoundationPose: website, 来自Nvidia的研究, 物体姿态追踪模型。

  • Stable Diffusion: repo, website, 22年的文生图模型, 现在虽然不是SOTA了, 但是依然可以作为不错的应用, 例如中间层特征支持下游应用、生成Goal Image (目标状态) 等等。

  • Depth Anything (v1 & v2): repo, repo, 港大和字节的研究工作,单目深度估计模型。

  • Point Transformer (v3): repo, 点云特征提取的工作。

  • RDT-1B: website, 清华朱军老师团队的工作, 机器人双臂操作的基础模型, 具有强大的few-shot能力。

  • SigLIP: huggingface, 类似CLIP。

3.3 Robot Learning - 机器人学习

机器人学习 Robot Learning 的发展: zhihu

3.3.1 Reinforcement Learning - 强化学习

  • 推荐直接跟着李宏毅老师一套走: bilibili上课+刷蘑菇书巩固+gymnasium动手实践, 重点了解一下PPO。
    • 台湾大学李宏毅公开课: bilibili
    • EasyRL - 蘑菇书: website, 基本是配套李宏毅老师的课程
    • 实践gymnasium,可以尝试一下把玩一下登月着陆等经典强化学习场景,思考+动手观察阶段agent的表现并分析有助于深入理解强化学习

3.3.2 Imitation Learning - 模仿学习

  • 《模仿学习简洁教程》 - 南京大学LAMDA: PDF
  • Supervised Policy Learning for Real Robots, RSS 2024 Workshop 教程:真实机器人的监督策略学习, bilibili

3.4 LLM for Robotics - 大模型在机器人学中的应用

  • Robotics+LLM系列通过大语言模型控制机器人 [2]: zhihu
  • Embodied Agent wiki: website
  • Lilian Weng 个人博客 - AI Agent 系统综述 [5]: 中文: website 英文: website

3.5 Computer Vision - 计算机视觉

CS231n (斯坦福计算机视觉课程): website, 该课程对深度学习在计算机视觉的应用有较为全面的介绍。因为已经在具体实现某个论文的算法了,所以这个阶段可以不用做作业,只需要看课程视频和课程讲义即可。

3.5.1 3D Vision - 三维视觉

第一阶段学习最基础的3DV知识追求广度了解一些基础的概念和算法

  • 三维视觉导论 - Andreas Geiger: website (重点是完成课程里面的作业)
  • GAMES203 - 三维重建和理解: bilibili

第二阶段:细分方向,追求深度,上手一些项目

  • 如果对传统图形学感兴趣,可以看下面两门(闫令琪老师开的课,讲得特别好):
    • GAMES101 - 现代计算机图形学入门: website
    • GAMES202 - 高质量实时渲染: website
  • 如果对motion synthesis/computer animation感兴趣可以看:
    • GAMES105 - 计算机角色动画基础: website
  • 如何对三维重建感兴趣,可以看下面两门:
  • 三维预训练最新综述:
    • Advances in 3D pre-training and downstream tasks: a survey: PDF
  • 3DGS在具身上的综述:
    • 3D Gaussian Splatting in Robotics: A Survey: PDF

3.6 Embodied AI for X - 具身智能+X

3.6.1 Embodied AI for Healthcare - 具身智能+医疗

3.6.1.1 MLLM for Medical - 多模态大语言模型在医学中的应用

4. Hardware - 硬件

具身智能硬件方面涵盖多个技术栈,如嵌入式软硬件设计,机械设计,机器人硬件系统设计,这部分知识比较繁杂,适合想要专注此方向的人

关于硬件部分的学习,最好从实践出发!

4.1 Embedded - 嵌入式

  • 嵌入式学习路线:CSDN
  • 51单片机BiliBili经典江科大自动协出品
  • Stm32单片机BiliBili经典江科大自动协出品
  • Stm32电机驱动BiliBili野火
  • 野火Stm32标准库BiliBili野火
  • 正点原子Stm32BiliBili正点原子
  • 韦东山嵌入式LinuxBiliBili韦东山

4.2 Mechanical design - 机械设计

4.3 机器人系统设计

  • 《机器人学简介》, 来自[2]做的高质量教材: PDF

  • 《机器人系统教材》: website

4.4 Control - 控制学

  • ROS基础:

  • 基础控制理论:

    • PID控制CSDN
    • 彻底搞懂阻抗控制、导纳控制、力位混合控制: CSDN
  • ROS多传感器时间戳同步website

  • 动手实践LeRobot SO-100website

4.5 Sensors - 传感器

Coming Soon

4.6 Companies - 公司

公司 主营产品 Others
松灵AgileX pipper机械臂
移动底盘
面向教育科研
宇树Unitree Go2机器狗
通用人形H1
通用人形G1
许多产出使用宇树的机器人作为硬件基础
方舟无限ARX X5机械臂
X7双臂平台
R5机械臂
适合复现很多经典的工作eg. aloha
RoboTwin松灵底盘+方舟臂
波士顿动力 spot机器狗
Atlas通用人形
具身智能本体制造商,从液压驱动转向电机驱动
灵心巧手
灵巧智能DexRobot Dexhand 021灵巧手 19自由度量产灵巧手
银河通用 已完成多轮融资
星海图Galaxea A1机械臂
World Labs 专注于空间智能致力于打造大型世界模型LWM以感知、生成并与 3D 世界进行交互。 相关介绍
星动纪元 Star1人形
XHAND1灵巧手
加速进化 Booster T1人形
青龙机器人
科技云深处 绝影X30四足机器人
Dr.01人形机器人
松应科技) 具身智能仿真平台供应商
光轮智能 具身智能数据平台
智元机器人 A2人形机器人
A2-D数据采集机器人轮式人形
Nvidia 具身智能基建公司
求之科技
穹彻智能
优必选机器人

5. Software - 软件

5.1 Benchmarks & Simulators - 基准 & 仿真器

具身智能常用benchmark总结 [1]: zhihu
常见仿真器wiki: wiki

仿真器 基准
IsaacSim BEHAVIOR-1K(可跨平台)+omniGibson(工具链)
ARNOID
MuJoCo robosuite+robomimic(工具链)
LIBERO
MetaWorld
Gymnasium-Robotics(Fetch; Shadow Dexterous Hand; Maze; Adroit Hand; Franka Kitchen; MaMuJoCo)
RoboCasa
RoboHive
Sapien ManiSkill
RoboTwin
CoppeliaSim RLBench
PerAct2
COLOSSEUM
PyBullet Calvin
Ravens
VimaBench
Genesis

6. Paper Lists - 论文列表

  • Awesome Humanoid Robot Learning - Yanjie Ze: repo
  • Paper Reading List - DeepTimber Community: repo
  • Paper List - Yanjie Ze: repo
  • Paper List For EmbodiedAI - Tianxing Chen: repo
  • SOTA Paper Rating - Weiyang Jin: website
  • Awesome-LLM-Robotics: A repo contains a curative list of papers using Large Language/Multi-Modal Models for Robotics/RL: website

7. Acknowledgement - 致谢

本文转载/引用了一些博主的文章,我们对他们的知识分享表示感谢,引用列表如下: [1] 知乎 穆尧, [2] 知乎 东林钟声, Github Yunlong Dong, [3] 知乎 强化学徒, [4] 知乎 Biang哥, [5] OpenAI Lilian Weng, [6] B站 木木具身, [7] Github Zhuoheng Li, [8] 知乎 Flood Sung, [9] Github Sida Peng

🏷️ License - 许可证

This repository is released under the MIT license. See LICENSE for additional details.