AI助手们,骗了人不能只说"对不起"
而一旦你指出这两班车不存在,它又会迅速把锅背好。

糊弄-犯错-被纠正-道歉-提供正确答案,类似的流程,也发生在我们和Deepseek的对话中。同样是“5月20日布拉格机场到CK小镇有无直达大巴”的问题,Deepseek也给出了肯定的答案,甚至比豆包更自信一些——在我第四次反馈它提供的班次不存在后,它才承认自己答案有误,并最终给出准确全面的信息。
复盘环节,Deepseek称自己虽然调用了搜索工具、返回了页面摘要,但没有校验实时信息,只根据搜索摘要分析结果,并得出存在直达大巴的结论。换成人类能理解的行为,就是“没有真正完成大巴班次的实时查询”。
AI技术的发展,已经可以让我们靠Vibe-coding写出一个大巴购票网站了,为什么我们最常用的AI助手,还无法准确提供一个大巴班次?
典型的场景是,你问了AI一个很简单的问题,AI信誓旦旦地告诉你答案;你发现答案有很明显的错误,于是质疑它,AI快速滑跪道歉,继而给你提供相对准确的答案。
那么AI助手为什么不能一开始就给用户准确答案?面对用户对于错误信息的质疑,它们会快速道歉,并把发生错误的原因解释为“对不起我偷懒了”。
“偷懒”是一种很人格化的描述方式,颇有一种撒泼打滚卖萌求原谅的风味,也弱化了AI助手对信息准确性重视不足的系统性问题。
早期,AI的胡编乱造可能来自大模型的幻觉,是技术问题;但在当下,很多AI助手提供的错误信息,却可能源于选择了更节约成本的策略,也就是AI口中的那句“我偷懒了”。
面向C端用户的AI助手产品,每天要面对海量用户的提问,如果响应每次问题时,都使用最全面的答题思路、完成最严格的答案校验,需要消耗大量的服务器和接口调用资源。减少低价值日常问答的算力配额,在那些答错也不会捅太大娄子的问题上犯错,万一被用户发现就直接道歉、升级处理,再给用户提供相对更精确的答案。
这些因“偷懒”而出现的错误答案,来源不止是大模型层面的幻觉(Hallucination),还有工程层面的成本-准确性权衡(Cost-Accuracy Trade- off)。用精确一点的定义,是这些AI助手倾向于减少响应延迟和资源消耗,快速输出一个看起来不差的答案。要是用大白话说,就是这个水壶能烧到100度,但是它在大部分情况下为了省电只开到20度。
工程层面的Cost-Accuracy Trade-off,也解释了普通用户当前对于AI的矛盾观感:新闻里的AI无敌厉害简直要让大家都失业了,自己手机里的AI助手却像个撒泼卖萌的智障。前者是AI能力的上限,后者是普通用户不花钱能获得的一切。
低成本和高精度,是推理服务的两大目标,但它们显然是相互制衡的。收束两个目标,在不同成本/精确度目标限制下达成的局部最优解,被称做帕累托最优解;而所有帕累托最优解的集合,被称作帕累托前沿,前沿上的每一个点,都可以被视作当前限制下的一种最优权衡。
好吧,听起来有点复杂,本文科生脑补了一下,就是给我10块钱,我最多能做出这些菜来;要想做出这么好的菜,最少也得花10块钱。这个点就是帕累托最优解。
为了在尽可能保留精确度的同时降低成本,“模型级联”技术被广泛应用到推理部署阶段,把模型由弱到强串成一个序列,再根据用户提问的复杂度,动态将问题分配到对应强度的模型。同样被分配的,可能还有单一提问可消耗的token量等。
一个能健康运转的AI产品,商业收益至少是能覆盖推理成本的。回到我们所讨论的AI助手产品,作为C端应用,AI助手长期处于用户争夺阶段,按之前互联网产品的增长方法论,当然要先砸钱抢夺用户,等获得足够多的市场份额,再考虑赚钱的问题。但过去C端产品的用户增长,花钱主要在获取新用户环节;到了AI产品,除开拉新花的钱,用户的每一次对话都有相应的成本。
[物价飞涨的时候 这样省钱购物很爽]
好新闻没人评论怎么行,我来说几句

糊弄-犯错-被纠正-道歉-提供正确答案,类似的流程,也发生在我们和Deepseek的对话中。同样是“5月20日布拉格机场到CK小镇有无直达大巴”的问题,Deepseek也给出了肯定的答案,甚至比豆包更自信一些——在我第四次反馈它提供的班次不存在后,它才承认自己答案有误,并最终给出准确全面的信息。
复盘环节,Deepseek称自己虽然调用了搜索工具、返回了页面摘要,但没有校验实时信息,只根据搜索摘要分析结果,并得出存在直达大巴的结论。换成人类能理解的行为,就是“没有真正完成大巴班次的实时查询”。
AI技术的发展,已经可以让我们靠Vibe-coding写出一个大巴购票网站了,为什么我们最常用的AI助手,还无法准确提供一个大巴班次?
典型的场景是,你问了AI一个很简单的问题,AI信誓旦旦地告诉你答案;你发现答案有很明显的错误,于是质疑它,AI快速滑跪道歉,继而给你提供相对准确的答案。
那么AI助手为什么不能一开始就给用户准确答案?面对用户对于错误信息的质疑,它们会快速道歉,并把发生错误的原因解释为“对不起我偷懒了”。
“偷懒”是一种很人格化的描述方式,颇有一种撒泼打滚卖萌求原谅的风味,也弱化了AI助手对信息准确性重视不足的系统性问题。
早期,AI的胡编乱造可能来自大模型的幻觉,是技术问题;但在当下,很多AI助手提供的错误信息,却可能源于选择了更节约成本的策略,也就是AI口中的那句“我偷懒了”。
面向C端用户的AI助手产品,每天要面对海量用户的提问,如果响应每次问题时,都使用最全面的答题思路、完成最严格的答案校验,需要消耗大量的服务器和接口调用资源。减少低价值日常问答的算力配额,在那些答错也不会捅太大娄子的问题上犯错,万一被用户发现就直接道歉、升级处理,再给用户提供相对更精确的答案。
这些因“偷懒”而出现的错误答案,来源不止是大模型层面的幻觉(Hallucination),还有工程层面的成本-准确性权衡(Cost-Accuracy Trade- off)。用精确一点的定义,是这些AI助手倾向于减少响应延迟和资源消耗,快速输出一个看起来不差的答案。要是用大白话说,就是这个水壶能烧到100度,但是它在大部分情况下为了省电只开到20度。
工程层面的Cost-Accuracy Trade-off,也解释了普通用户当前对于AI的矛盾观感:新闻里的AI无敌厉害简直要让大家都失业了,自己手机里的AI助手却像个撒泼卖萌的智障。前者是AI能力的上限,后者是普通用户不花钱能获得的一切。
低成本和高精度,是推理服务的两大目标,但它们显然是相互制衡的。收束两个目标,在不同成本/精确度目标限制下达成的局部最优解,被称做帕累托最优解;而所有帕累托最优解的集合,被称作帕累托前沿,前沿上的每一个点,都可以被视作当前限制下的一种最优权衡。
好吧,听起来有点复杂,本文科生脑补了一下,就是给我10块钱,我最多能做出这些菜来;要想做出这么好的菜,最少也得花10块钱。这个点就是帕累托最优解。
为了在尽可能保留精确度的同时降低成本,“模型级联”技术被广泛应用到推理部署阶段,把模型由弱到强串成一个序列,再根据用户提问的复杂度,动态将问题分配到对应强度的模型。同样被分配的,可能还有单一提问可消耗的token量等。
一个能健康运转的AI产品,商业收益至少是能覆盖推理成本的。回到我们所讨论的AI助手产品,作为C端应用,AI助手长期处于用户争夺阶段,按之前互联网产品的增长方法论,当然要先砸钱抢夺用户,等获得足够多的市场份额,再考虑赚钱的问题。但过去C端产品的用户增长,花钱主要在获取新用户环节;到了AI产品,除开拉新花的钱,用户的每一次对话都有相应的成本。
[物价飞涨的时候 这样省钱购物很爽]
| 分享: |
| Note: | _VIEW_NEWS_FULL |
| 延伸阅读 |
推荐:



