PP动态

PP电子 app语言模型有重大缺陷知识推演竟然是老大难

发布时间：2023-10-04 22:54人气：

　　PP电子 app灵活运用知识是智慧的关键。人脑可以快速处理知识，如快速回答 “《静夜思》中有几个月字”。那么，大模型是否能进行类似操作？已知大模型可以通过思维链（Chain of Thought / CoT），先默写《静夜思》，再根据默写内容回答问题，但这会使生成的文字冗长。相比之下，人类可以在大脑中完成简单的知识推演，。那么，超大语言模型能否在其人工脑 (artificial brain) 中直接生成答案，而无需先写下知识点呢？

　　答案竟然是否定的！图 1/2/3 展示了 GPT4 上的诸多反例。即使是最基本的分类（如判断名人生日的奇偶性）和比较（如比较两位总统的生日先后），竟然要通过思维链 Chain of Thought。更糟糕的是，大模型几乎完全不能逆向提取训练集中的知识。

　　图 3：虽然 GPT4 能正确回答 “某人的生日是哪天” 和 “某数是否为偶数”，但在将两者结合时，如果不用思维链 (CoT) 正确率只有 50%。在比较 1900-1910 年间名人的生日时，其表现也近乎盲猜。

PP电子 app语言模型有重大缺陷知识推演竟然是老大难(图1)

　　先问一个问题，诸如图 1/2/3 这样的问题，是 GPT4 对人的生日记忆不够精确（压缩比不够，训练 loss 不够低），还是未通过微调深化对奇偶性的理解？是否可以通过微调 GPT4，使其能够在模型内部组合现有知识，生成生日的奇偶性这种新知识，从而无需依赖 CoT 直接回答相关问题？由于我们不知道 GPT4 的训练数据集，无法微调。因此，作者提出通过可控训练集，来更深入研究语言模型的 “知识推演” 能力。

PP电子 app语言模型有重大缺陷知识推演竟然是老大难(图2)

　　图 4：对 GPT4 之类的预训练模型，由于互联网数据的不可控性，很难确定情形 B/C/D 是否发生

　　在《语言模型物理学 Part 3.1：知识的储存与提取》中，作者创建了一个包含 100k 个人物传记的数据集。每个传记包括人名和六个属性：出生日期，出生地，大学专业，大学名称，工作地点，工作单位。譬如：

　　作者确保了传记条目的多样性，以帮助模型更好的存取知识。在预训练 (pretrain) 后，模型能通过微调准确回答知识提取类问题，如 “Anya 的生日是哪天” （正确率接近 100%）

　　接下来作者继续微调，试图让模型学会知识推演类问题，如知识的分类 / 比较 / 加减。文章发现，自然语言模型在知识推演方面的能力非常有限，难以通过微调产生新知识，即便它们只是模型已掌握知识的简单变换 / 组合。

PP电子 app语言模型有重大缺陷知识推演竟然是老大难(图3)

　　图 5：若微调时不使用 CoT，让模型进行知识的分类 / 比较 / 减法，需要海量的样本或者正确率极低 —— 实验中用了 100 个专业

　　如图 5，作者发现，尽管预训练（pretrain）之后模型已经能准确回答每个人的生日（正确率接近 100%），但要通过微调让其回答 “xxx 的出生月是偶数吗？” 并达到 75% 的正确率 —— 别忘了盲猜有 50% 的正确率 —— 需要至少 10000 个微调样本。相较之下，如果模型能正确完成 “生日” 和 “奇偶性” 的知识组合，那么根据传统机器学习理论，模型只需学习对 12 个月份进行二分类，通常约 100 个样本就足够了！

　　同样，模型预训练之后能准确回答每个人的专业（共 100 个不同专业），但即使用了 50000 个微调样本，让模型比较 “Anya 的专业和 Sabrina 的专业哪个更好”，正确率仅为 53.9%，近乎盲猜。

　　然而，当我们使用 CoT 微调让模型学习 “Anya 的出生月是 October，因此是偶数” 这样的句子时，模型在测试集上判断出生月奇偶性的正确率大幅提升（见图 5 的 “test 用 CoT” 一列）。

　　作者还尝试在微调训练数据中混合 CoT 和非 CoT 的回答，结果发现模型在测试集上不使用 CoT 时的正确率仍然很低（见图 5 的 “test 不用 CoT” 一列）。这说明，即便补上足够的 CoT 微调数据，模型依然无法学会 “颅内思考” 并直接报答案。

　　这些结果表明，对于语言模型来说，进行简单的知识运算极其困难！模型必须先把知识点写出来再进行运算，无法像人一样在大脑里直接进行操作，即使经过充分的微调也无济于事。

　　文章也发现，自然语言模型无法逆向搜索学到的知识。尽管它能回答关于某人的所有信息，但无法根据这些信息确定人名。

　　和知识的分类 / 比较一样，作者对 GPT3.5/4 进行了试验，发现它们在逆向知识提取上表现差（见图 6）。但由于我们无法确定 GPT3.5/4 的训练集，这并不能证明所有语言模型都有此问题。

PP电子 app语言模型有重大缺陷知识推演竟然是老大难(图4)

　　图 6：对比 GPT3.5/4 的正向 / 逆向知识搜索。几天前我们报道的「逆转诅咒」工作（arxiv 2309.12288）也在现有的大模型上观察到了这一点。

　　作者利用前述的人物传记数据集，对模型的逆向知识搜索能力进行了更深入的可控试验 (controlled experiment)。由于所有传记的人名都在段首，作者设计了 10 个反向信息提取问题，例如：

PP电子 app语言模型有重大缺陷知识推演竟然是老大难(图5)

　　作者验证了，尽管模型实现了无损知识压缩和充分知识增强，且能几乎 100% 正确提取这些知识，在经过微调后，模型仍无法进行知识的逆向搜索，准确率几乎为零（见图 7）。但是，一旦逆向知识直接出现在预训练集中，逆向搜索的准确率立即飙升。

　　综上所述，只有在预训练集 (pretrain data) 中直接包含了逆向知识时，模型才能通过微调来回答逆向问题 —— 但这实际上是作弊，因为如果知识已经反转，就不再是 “逆向知识搜索” 了。如果预训练集只包含正向知识，模型无法通过微调来掌握逆向回答问题的能力。因此，使用语言模型进行知识索引 (knowledge database) 目前看来是不可能的。

　　另外，有人可能会认为，上述 “逆向知识搜索” 的失败可能是由于自回归 (autoregressive) 语言模型如 GPT 的单向性。但实际上，双向语言模型如 BERT 在知识提取上表现更差，甚至在正向提取上也会失败。有兴趣的读者可以参考论文细节。PP电子游戏

分享到：

上一篇：昆仑万维“天工”大PP电子 app模型荣登2023年《财富》中国最佳设计榜

下一篇：PP电子 app机器人研究迎来ImageNet时刻：一个数据集让DeepMind具身智能大模型突飞猛进

PP电子「中国」平台网站

咨询热线：

PP电子 app语言模型有重大缺陷知识推演竟然是老大难

PP电子「中国」平台网站

咨询热线：

PP电子 app语言模型有重大缺陷知识推演竟然是老大难

微信号：WX39936微信二维码