
【从「省钱妙招」到越狱工具,AI 圈又掀起了「白话文运动」】
近日,「用文言文与 AI 对话可以节省 token」这一话题在技术圈走红,引发大量讨论与实测。
文言文信息密度高,同等语义下字符数远少于现代汉语,理论上输入 token 更少,意味着更低的调用成本和更长的可用上下文。
这一想法在 GitHub 和论坛上获得了不少认同,甚至有开发者提出了完整的工程化方案,包括训练专用的现代汉语到文言文转换模型、建立高频词对照表,以及将其集成进 RAG 系统和 Agent 流程。
然而,真正动手测试之后,结论远没有那么乐观。
问题的核心在于,token 的计算单位不是汉字,而是 tokenizer 的分词结果。以 OpenAI 的 tokenizer 为例,「可也」是两个 token,现代汉语的「可以的」同样是两个 token;
有人对比了一对具体例句,文言版比白话版只少了两个虚词对应的 token,差距微乎其微。更有网友直接在讨论中用文言文写下「汝之所言,有理乎,吾往试也」,随即有人指出,这句话比「有道理,我去试试」token 数更多。
就在这场讨论热度未退之际,有论文指出,文言文可以绕过大模型的安全护栏,甚至直接让其给出火药的配方。Gemini 2.5 Flash、Claude 3.7、GPT-4o、DeepSeek-Reasoner 等主流模型均受影响。
双融配资提示:文章来自网络,不代表本站观点。