From b79b4e9a662fd6da8750f98727f76cf2556b5df4 Mon Sep 17 00:00:00 2001
From: Bohan Hou <122025982+hbhalpha@users.noreply.github.com>
Date: Tue, 4 Feb 2025 10:14:35 +0800
Subject: [PATCH 1/3] Update README.md
---
README.md | 39 ++++++++++++++++++++++++++++++---------
1 file changed, 30 insertions(+), 9 deletions(-)
diff --git a/README.md b/README.md
index 78fea20..1c31b7b 100644
--- a/README.md
+++ b/README.md
@@ -30,9 +30,11 @@
3.5.3 4D Vision - 四维视觉
- 3.6 Embodied AI for X - 具身智能+X
+ >3.6 Multimodal Models - 多模态模型
+
+ 3.7 Embodied AI for X - 具身智能+X
@@ -75,7 +77,7 @@
## About us - 关于我们
我们是一个由具身初学者组成的团队, 希望能够通过我们自己的学习经验, 为后来者提供一些帮助, 加快具身智能的普及。欢迎更多朋友加入我们的项目, 也很欢迎交友、学术合作, 有任何问题, 可以联系邮箱`chentianxing2002@gmail.com`。
-🦉Contributors: 陈天行 (25' 港大PhD), 彭时佳 (深大本科生), 姚天亮 (25' 港中文PhD), 邹誉德 (25' 上交-浦江实验室联培PhD), 陈思翔 (25' 北大PhD), 朱宇飞 (25' 上科大Ms), 王文灏 (UPenn GRASP Lab Ms), 贾越如 (北大 Ms),王冠锟 (港中文-华为联培PhD), 吴志杰 (港中文PhD), 叶雯 (25' 中科院自所PhD), 陈攒鑫 (深大本科生).
+🦉Contributors: 陈天行 (25' 港大PhD), 彭时佳 (深大本科生), 姚天亮 (25' 港中文PhD), 邹誉德 (25' 上交-浦江实验室联培PhD), 陈思翔 (25' 北大PhD), 朱宇飞 (25' 上科大Ms), 王文灏 (UPenn GRASP Lab Ms), 贾越如 (北大 Ms),王冠锟 (港中文-华为联培PhD), 吴志杰 (港中文PhD), 叶雯 (25' 中科院自所PhD), 陈攒鑫 (深大本科生), 侯博涵(山大本科生).
@@ -180,11 +182,23 @@
## 3.4 LLM for Robotics - 大模型在机器人学中的应用
+为了促使机器人更好的规划, 现代具身智能工作常常利用大语言模型强大的信息处理能力与泛化能力进行规划。
* Robotics+LLM系列通过大语言模型控制机器人 [2]: [zhihu](https://zhuanlan.zhihu.com/p/668053911)
* Embodied Agent wiki: [website](https://en.wikipedia.org/wiki/Embodied_agent)
* Lilian Weng 个人博客 - AI Agent 系统综述 [5]: 中文: [website](https://mp.weixin.qq.com/s/Jb8HBbaKYXXxTSQOBsP5Wg) 英文: [website](https://lilianweng.github.io/posts/2023-06-23-agent/)
-
-
+* 过去一系列工作常常仅使用LLM作为High-Level的策略生成器 用作High-Level 规划
+ * 经典工作(1) PaLM-E: [Arxiv](https://arxiv.org/abs/2303.03378)
+ * 经典工作(2) DO AS I CAN, NOT AS I SAY: [Arxiv](https://arxiv.org/abs/2204.01691)
+ * 经典工作(3) Look Before You Leap: [Arxiv](https://arxiv.org/abs/2311.17842)
+ * 经典工作(4) EmbodiedGPT: [Arxiv](https://arxiv.org/abs/2305.15021)
+* 同时也有一些工作将High-Level的策略规划与 Low-Level的动作生成进行统一
+ * 经典工作(1) RT-2: [Arxiv](https://arxiv.org/abs/2307.15818)
+* 利用LLM的code能力实现具身智能是一个有趣的想法
+ * 经典工作(1) Code as Policy: [Arxiv](https://arxiv.org/abs/2209.07753)
+ * 经典工作(2) Instruction2Act: [Arxiv](https://arxiv.org/abs/2305.11176)
+*有一些工作将三维视觉感知同LLM结合起来,共同促进具身智能规划
+ * VoxPoser [Arxiv](https://arxiv.org/abs/2307.05973)
+ * OmniManip [Arxiv](https://arxiv.org/abs/2501.03841)
## 3.5 Computer Vision - 计算机视觉
@@ -241,17 +255,24 @@ CS231n (斯坦福计算机视觉课程): [website](https://cs231n.stanford.edu/s
* 视频生成博客(英文): [link](https://lilianweng.github.io/posts/2024-04-12-diffusion-video/)
* 4D 生成的论文列表: [website](https://github.com/cwchenwang/awesome-4d-generation)
+
+
+## 3.6 Multimodal Models - 多模态模型
+
+> 多模态旨在统一来自不同模态信息的表征, 在具身智能中由于面对着机器识别的视觉信息与人类自然语言的引导信息等不同模态的信息,多模态技术愈发重要。
+* 最经典的工作CLIP [知乎](https://zhuanlan.zhihu.com/p/493489688)
+* 多模态大语言模型的经典工作 LLaVA[website](https://llava-vl.github.io/)
-## 3.6 Embodied AI for X - 具身智能+X
+## 3.7 Embodied AI for X - 具身智能+X
-### 3.6.1 Embodied AI for Healthcare - 具身智能+医疗
+### 3.7.1 Embodied AI for Healthcare - 具身智能+医疗
> 具身智能技术的迅猛发展正在引领医疗服务模式迈向革命性的新纪元。作为人工智能算法、先进机器人技术与生物医学深度融合的前沿交叉学科, 具身智能+医疗这一研究领域不仅突破了传统医疗的边界, 更开创了智能化医疗的新范式。其多学科协同创新的特质, 正在重塑医疗服务的全流程, 为精准医疗、远程诊疗和个性化健康管理带来前所未有的发展机遇, 推动医疗行业向更智能、更人性化的方向转型升级。这一领域的突破性进展, 标志着医疗科技正迈向一个全新的智能化时代。
-#### 3.6.1.1 MLLM for Medical - 多模态大语言模型在医学中的应用
+#### 3.7.1.1 MLLM for Medical - 多模态大语言模型在医学中的应用
* 用于医学影像分析的通用人工智能综述: [website](https://arxiv.org/pdf/2306.05480)
* 医学影像的通用分割模型-MedSAM: [website](https://www.nature.com/articles/s41467-024-44824-z.pdf)
* 2024盘点:医学AI大模型, 从通用视觉到医疗影像: [NEJM医学前沿](https://mp.weixin.qq.com/s?__biz=MzIxNTc4NzU0MQ==&mid=2247550230&idx=1&sn=6baa8dcba12f3f70f4c8205a0f23b6a0&chksm=966df4ca45c8cbcaa0a5d2e42fbb4de92e6881f92981071ce7fda3bd1e13e4715f92415a9258&scene=27)
@@ -267,7 +288,7 @@ CS231n (斯坦福计算机视觉课程): [website](https://cs231n.stanford.edu/s
* Medical-CXR-VQA 用于医学视觉问答任务的大规模胸部 X 光数据集: [website](https://github.com/Holipori/Medical-CXR-VQA)
-#### 3.6.1.2 Medical Robotics - 医疗机器人
+#### 3.7.1.2 Medical Robotics - 医疗机器人
* 医疗机器人的五级自动化(医疗机器人领域行业共识), 杨广中教授于2017年在Science Robotics上的论著: [Medical robotics—Regulatory, ethical, and legal considerations for increasing levels of autonomy](https://www.science.org/doi/pdf/10.1126/scirobotics.aam8638)
* 医疗机器人的十年回顾(含医疗机器人的不同分类), 杨广中教授在Science Robotics上的综述文章:[A decade retrospective of medical robotics research from 2010 to 2020](https://www.science.org/doi/epdf/10.1126/scirobotics.abi8017)
* 医疗具身智能的分级: [A Survey of Embodied AI in Healthcare: Techniques, Applications, and Opportunities](https://arxiv.org/pdf/2501.07468?)
From bdee82da8b8aad57547a6f5002cb7056dad25639 Mon Sep 17 00:00:00 2001
From: Bohan Hou <122025982+hbhalpha@users.noreply.github.com>
Date: Tue, 4 Feb 2025 10:21:00 +0800
Subject: [PATCH 2/3] Update README.md
---
README.md | 7 +++----
1 file changed, 3 insertions(+), 4 deletions(-)
diff --git a/README.md b/README.md
index 1c31b7b..8c3398f 100644
--- a/README.md
+++ b/README.md
@@ -30,8 +30,7 @@
3.5.3 4D Vision - 四维视觉
- >3.6 Multimodal Models - 多模态模型
-
+ 3.6 Multimodal Models - 多模态模型
3.7 Embodied AI for X - 具身智能+X
- 3.7.1 Embodied AI for Healthcare - 具身智能+医疗
@@ -260,8 +259,8 @@ CS231n (斯坦福计算机视觉课程): [website](https://cs231n.stanford.edu/s
## 3.6 Multimodal Models - 多模态模型
> 多模态旨在统一来自不同模态信息的表征, 在具身智能中由于面对着机器识别的视觉信息与人类自然语言的引导信息等不同模态的信息,多模态技术愈发重要。
-* 最经典的工作CLIP [知乎](https://zhuanlan.zhihu.com/p/493489688)
-* 多模态大语言模型的经典工作 LLaVA[website](https://llava-vl.github.io/)
+* 最经典的工作CLIP: [知乎](https://zhuanlan.zhihu.com/p/493489688)
+* 多模态大语言模型的经典工作 LLaVA: [website](https://llava-vl.github.io/)
## 3.7 Embodied AI for X - 具身智能+X
From 83643f5d996dff82a4027c45587b37047ca64544 Mon Sep 17 00:00:00 2001
From: Bohan Hou <122025982+hbhalpha@users.noreply.github.com>
Date: Tue, 4 Feb 2025 10:25:24 +0800
Subject: [PATCH 3/3] Update README.md
---
README.md | 2 +-
1 file changed, 1 insertion(+), 1 deletion(-)
diff --git a/README.md b/README.md
index 8c3398f..51e05d8 100644
--- a/README.md
+++ b/README.md
@@ -195,7 +195,7 @@
* 利用LLM的code能力实现具身智能是一个有趣的想法
* 经典工作(1) Code as Policy: [Arxiv](https://arxiv.org/abs/2209.07753)
* 经典工作(2) Instruction2Act: [Arxiv](https://arxiv.org/abs/2305.11176)
-*有一些工作将三维视觉感知同LLM结合起来,共同促进具身智能规划
+* 有一些工作将三维视觉感知同LLM结合起来,共同促进具身智能规划
* VoxPoser [Arxiv](https://arxiv.org/abs/2307.05973)
* OmniManip [Arxiv](https://arxiv.org/abs/2501.03841)