VALSE-2023 • Jianghc's Blog

下一代深度学习思考与若干问题#

计算机视觉，从孤立到系统#

更主要的多模态是相对全面的感知，从被动到主动，在探索中去学习大模型催生人工智能的体系结构，

AI体系结构

AI基本能力间的界面
AGI的结构支撑，通用人工智能
超越传统AI话题的研究领域
超越单一智能催生结构

模型是什么：算法复杂程度（写代码有多难）* 养成数据（可能这里是一个对数关系，规模躲不过维数灾难）模型成熟度：M = 算力（当前能提供的算力）/模型复杂程度
通用模型趋向于简单化，专用模型趋向于复杂化。 Lifelong Learning Machine 操作性条件反射，交互学习，多模态不是简单将文本加进去？自学不仅仅是自监督学习，更多是从观察到探索，

神经网络模型轻量化设计#

较新的问题：参数矩阵中每连续M个参数中有N个参数为0 自动化的神经网络分析，结构化剪纸边缘设备傻姑娘的模型部分更新

轻量化VIT，只看Flops是有误导的，attetion并不是在所有的token都做，self-attention会占用到一半左右的时间，

知识蒸馏：

NeRF

机器人具身智能。20230611#

density field是一种更为广泛的表达方式相较与sdf和occ，但也更难训练高频信号的一些表达，编码，分块来进行表达（每块用一个小的MLP）

Plenoxels暗示了最重要的不是network而是一个可微的渲染，并不是非神经网络不可，神经网络具有连续性和整体性。如何将知识可微化是个可以讨论的topic