大模型学习路径

返回首页学习路径入门

模态与工具边界

文本、图、音、视频如何进入模型；工具在补什么短板。

四种类型的输入

常见产品里，模型最终接触的多是：文本、图片、音频、视频（具体取决于产品是否开启多模态）。你用的「插件、MCP、函数调用」本质上也是在把外部结果再变成这几类之一喂回模型。

对你意味着什么

需要 实时数据（股价、天气、内网文档）→ 要靠工具取数，而不是假设模型「已经知道」。
精确计算、严格数据库查询 → 交给工具；模型负责 理解与编排。

自检

你的任务里，哪些是「模式续写」能搞定的？哪些必须接系统？