
春节这几天,围绕 DeepSeek,朋友圈和微信群吵翻了天,大多数议题和结论都跟科学本身关系不大,我也无意参与。
利用这几天闲暇,我对 DeepSeek 做了一些深度测试,暂时没有要下的结论,但是有些疑虑。最主要的疑虑是大家最津津乐道的 DeepSeek 每次回答时首先呈现的思考和推理过程,我在反复测试后,怀疑这并不是它真实的思维和推理过程,而是内部设定了结构化输出,每次都强制它这样回答,也就是说这个所谓的推理过程,其实是一种“写作”,是输出结果的一部分,而不是大模型运行推理的真实过程。
但是,我没法确认,所以我把这个困惑发给 DeepSeek 自己,来看看它的回答,当然,如果你没有耐心看完下面这大段文字,我可以直接给你剧透结果:DeepSeek 确认了我的怀疑。
客观地说,DeepSeek 针对这个问题的分析是相当坦诚的,也就是说,每次问答开始的推理过程和对用户内心需求的揣摩,是一种结构化的强制写作。那么,下一个问题就来了,既然如 DeepSeek 所述,这是“拟真文本”,如果用户当真了呢?事实上,我观察到的多数使用者都当真了,都为 DeepSeek 能猜透自己的心思而震撼,而没有意识到,那可能根本不是自己的心思,带着这个疑虑,我继续问了 DeepSeek。
再赞一下 DeepSeek,它的总结和造词能力显然远超人类,它在回答中总结了三个风险:权威性幻觉、认知代入陷阱和信息茧房强化。这三点可以用精确来评价,尤其是前两点,在我上一篇分析 DeepSeek 的文章中已经涉及,只是没有 DeepSeek 这么会造词。
我现在的态度仍然是避免急于下结论,更深入地去使用,忽略与科学无关的争论,对于我今天讨论的疑虑,DeepSeek 在第二张截图中给出了一些解决方案,而对于使用者,我个人的建议与 DeepSeek 一致:你可以忽略那个推理过程,不要沉迷在里面,甚至可以不看,因为很容易被误导,而 DeepSeek 正式答案的准确性,并不受这个模拟的推理过程影响,他们之间没有必然的因果关系。