背景-LLM正走向多模态
大语言模型(LLM)是近几年来最火热的方向之一
可以解决各种传统NLP任务,如文本分类、命名实体识别等
可以做更高级的任务
作为聊天机器人,按照要求扮演某个角色(强大的指令遵循能力)
做高阶的推理任务,如写代码、解数学问题等(强大的推理能力,CoT进一步增强)
然而LLM存在固有的限制
无法处理多模态的输入,导致有些任务无法做或者很难做,如根据网站截图给出源代码、理解一张表情包的含义
无法获取更多的多模态的世界知识,如名画、名人等
声明:1、本站部分资源来自于网络,如若本站内容侵犯了原著者的合法权益,可联系我们进行处理。
2、如遇本站资源无法下载、无法查看,请计时联系我们,站长将第一时间修复。
2、如遇本站资源无法下载、无法查看,请计时联系我们,站长将第一时间修复。