大模型学习路径
返回首页 学习路径 入门

模态与工具边界

文本、图、音、视频如何进入模型;工具在补什么短板。

四种类型的输入

常见产品里,模型最终接触的多是:文本、图片、音频、视频(具体取决于产品是否开启多模态)。你用的「插件、MCP、函数调用」本质上也是在把外部结果再变成这几类之一喂回模型。

对你意味着什么

  • 需要 实时数据(股价、天气、内网文档)→ 要靠 工具 取数,而不是假设模型「已经知道」。
  • 精确计算、严格数据库查询 → 交给工具;模型负责 理解与编排

自检

  • 你的任务里,哪些是「模式续写」能搞定的?哪些必须接系统?

延伸阅读