背景-LLM正走向多模态

  大语言模型(LLM)是近几年来最火热的方向之一

  可以解决各种传统NLP任务,如文本分类、命名实体识别等

  可以做更高级的任务

  作为聊天机器人,按照要求扮演某个角色(强大的指令遵循能力)

  做高阶的推理任务,如写代码、解数学问题等(强大的推理能力,CoT进一步增强)

  然而LLM存在固有的限制

  无法处理多模态的输入,导致有些任务无法做或者很难做,如根据网站截图给出源代码、理解一张表情包的含义

  无法获取更多的多模态的世界知识,如名画、名人等