模态与工具边界
文本、图、音、视频如何进入模型;工具在补什么短板。
四种类型的输入
常见产品里,模型最终接触的多是:文本、图片、音频、视频(具体取决于产品是否开启多模态)。你用的「插件、MCP、函数调用」本质上也是在把外部结果再变成这几类之一喂回模型。
对你意味着什么
- 需要 实时数据(股价、天气、内网文档)→ 要靠 工具 取数,而不是假设模型「已经知道」。
- 精确计算、严格数据库查询 → 交给工具;模型负责 理解与编排。
自检
- 你的任务里,哪些是「模式续写」能搞定的?哪些必须接系统?
文本、图、音、视频如何进入模型;工具在补什么短板。
常见产品里,模型最终接触的多是:文本、图片、音频、视频(具体取决于产品是否开启多模态)。你用的「插件、MCP、函数调用」本质上也是在把外部结果再变成这几类之一喂回模型。