年轻人的第一个大模型玩具

taro Posted on Mar 16 2024

## 大模型

一个新科技从诞生到发展，基本都会经历两个阶段。

大玩具 ----> 生产力

作为玩具的可玩性，让一个个复杂而高级的科技走下神坛。它代表着有多少人愿意为这个科技付费，让他坚持到被挖掘出生产力的那一天。我家里的第一台电脑，一开始对我来说是 4399 ，单机游戏，CF，LOL。对第一次在自己家里摸到那个大家伙的我，做梦也想不到，这东西在二十年后竟然会成为我吃饭的家伙事。

作为生产工具的生产力，才是决定这个科技是否能力影响这个世界的根本因素。最近总有一种说法，说是科技停滞很久了。我在上大学的第一节计算机导论课上老师就说：『摩尔定律已死！』。前两年几乎每年都有人摇大旗喊着『VR元年』，各个大厂重金ALL IN。可惜直到现在，VR也只是作为一个大玩具，始终跨不出到生产力的那一步。

2023年，说不好是VR的没落导致了AI的崛起，还是AI的崛起导致VR的没落。ChatGPT 的发布刷新了很多人对AI的认知。我们曾经以为床头的小爱同学和siri能听懂我们用不同方式描述一件事情，已经是人工智能的极限。ChatGPT 一下打破了我们的想象：**他是我们见过最像是一个人的人工智能**

他上知天文下知地理，他几乎能回答你的所有问题（虽然有时候胡说八道）。让我不禁想到很多电影里正反派争夺的宝藏--写尽了这个世界所有的答案的『答案之书』。从前，有个笑话叫做你无法确定在另一个计算机屏幕面前跟你对话的人是一个人还是一条狗；现在你有时候这的无法确定在另一个计算机屏幕面前跟你对话的人是一个人还是一个AI。

更令人惊奇的是，他以极短的时间就跨越了从『大玩具』到『生产力』的一步。首先影响的就是AI科技第一线的程序员，让很多程序员的工作从文档工程师向CV工程师的进化更近了一步。最近一年，能看到大模型在各个行业的各个角落开始扎根，客服，运营，教培，安全....

从这一刻起，世界就分成了两种人，知道大模型的人和不知道大模型的人。

## 从生产力回归大玩具

最近一年，我也自认为是大模型生产力深度使用用户：几乎有五分之一的代码来自于它；调研尝试在告警中接入GPT辅助运营。从生产力角度，我的工作可以说已经离不开它了。但是从可玩性角度来看，他好像距离我们的日常生活又很遥远。受限于他的训练数据，信息的实时性，它不及搜索引擎；受限于他经常会胡说八道，信息的可靠性，他也不及搜索引擎。我见过最有帮助的还是在Blibili视频下面大家召唤的AI 『省流助手』，大多数都能很精准的总结出视频的概要。（不过UP主大多数是不喜欢这东西的把😂，感觉很影响视频的完播率）

过年前大家在群里发了一个比较有意思的小游戏，『春节模拟器』。AI扮演你讨厌的七大姑八大姨，给你上压力。大家在其中玩的不亦乐乎。一时手痒，趁着春节假期，迅速开干。找了个微信接口，准备在我们群里开始接入个大模型。顺便测一测，大模型在我们日常应用中，到底差距有多大。

### 大模型选择

选择大模型的第一原则就是：**白嫖**！

在这个原则下，选取了三个大模型：阿里通义千问、微软newBing(GPT4)、谷歌 Gemini。

先给出结论：

- 根据这段时间的使用体感，从反应速度上 通义千问 >= Gemini > newBing
- 从智能角度 newBing > Gemini > 通义千问
- 从可玩性 Gemini > 通义千问 > newBing

详细测评，会在后面慢慢展开。

### 你能干什么，三胖子？

表弟小区门口，有一个三胖烧烤，他爸带我们几个孩子在那撸串子。哥们最能吃，所以小时候的外号就叫三胖子。

那我们的新群友，就叫三胖子吧。

我把三胖子的功能分为了两类：帮读类和对话类

#### 帮读类

大家在群里分享的链接主要分三类

- 视频（B站）
- 微信公众号
- 网页链接

##### B站视频总结

对于B站，参考了一些开源代码，发现大家都是爬取B站的字幕接口，扔给GPT分析。
在这里，三个模型在相同的 SystemPrompt 下，返回的结果有些不同。

> prompt:
我会给你一个视频的文案, 格式是 时间: 内容 , 我希望你可以为我分析这段视频的文案,首先用一句话总结这篇视频的主要观点或者内容. 然后为我总结出来不超过5个要点,并以 时间+要点内容 返回给我, 以时间顺序排序,不需要序列号,你的返回应该像是这样: 这个视频主要讲了 xxxx 内容,其中 \n 0分30秒 讲述了xxxx \n 1分20秒 讲述了xxxx"

以一个我的老乡，冲塔区顶流UP主的视频为例：

gemini:
![](/api/file/getImage?fileId=65f508d720e79b000d0000e6)

newBing:
![](/api/file/getImage?fileId=65f508d720e79b000d0000e7)

qwen:
![](/api/file/getImage?fileId=65f508d720e79b000d0000e5)

从结构上来看，基本都完成了我要求的格式。
从内容上，总结的内容与原视频意义相差不大，从个人倾向来说，我更倾向于Gemini，所提取出来的重点更倾向于我关注的。不过相差不是很多，只是通义千问最后时间输出错了。

##### 公众号内容总结

因为大家分享的公众号文章是最多的，公众号文章结构也相对固定，所以对此进行了单独优化。

> prompt:
我会给你一个文章，其中包含文字标题和内容, 你需要为我总结出这个文章的主要内容,首先用一句话总结这个链接的主要观点或者内容，然后对文章内容重点提炼出来

gemini:
![](/api/file/getImage?fileId=65f50a6220e79b000d0000e8)

newBing:
![](/api/file/getImage?fileId=65f50b4720e79b000d0000ef)

qwen:
![](/api/file/getImage?fileId=65f50a6220e79b000d0000e9)

从结构上，我对Gemini和newBing的格式也是更倾向，看起来更清晰一些。

##### 通用网页总结

通用网页总结是我平常用的最多的功能，现在大家『学新闻学的』起标题各个吸引人眼球，点进去一看，『就这啊？』我现在看到链接第一时间先甩给GPT帮读一下，大致就能看出来是不是标题党。

首先是一个技术文章：

gemini:
![](/api/file/getImage?fileId=65f50d3820e79b000d0000f1)
newBing:
![](/api/file/getImage?fileId=65f50d3820e79b000d0000f0)
qwen:
![](/api/file/getImage?fileId=65f50dc520e79b000d0000f3)

可能是千问选取的模型不合适？超出了最长限制，退出了本轮评测

然后是热搜总结：

> prompt 
我会给你一段话，请你为我总结出这段话所包含的所有重点信息

gemini:
![](/api/file/getImage?fileId=65f50d3820e79b000d0000f2)

newBing:
![](/api/file/getImage?fileId=65f511c320e79b000d0000fb)

qwen:
![](/api/file/getImage?fileId=65f5121220e79b000d0000fc)

#### 对话类

想让三胖子参与群聊，有两种方式

- 和三胖子对话，正常的询问回答方式，被动回答问题
- 三胖子根据上下文，主动加入对话

##### 被动回答

gemini:
![](/api/file/getImage?fileId=65f510e920e79b000d0000f4)
![](/api/file/getImage?fileId=65f510e920e79b000d0000f6)
![](/api/file/getImage?fileId=65f510e920e79b000d0000f5)
![](/api/file/getImage?fileId=65f5112c20e79b000d0000f8)

newBing:
![](/api/file/getImage?fileId=65f5116a20e79b000d0000f9)
![](/api/file/getImage?fileId=65f5131720e79b000d0000ff)
![](/api/file/getImage?fileId=65f5121220e79b000d0000fd)

qwen:
![](/api/file/getImage?fileId=65f5125620e79b000d0000fe)

##### 主动回答

解开群友们的一个困惑，三胖子是如何主动加入群里的。首先轮询聊天记录，如果一个时间窗口内出现n条发言，就告诉他群聊中的上下文，让他自己尝试加入对话，经过不断调试，找到了最拟人的prompt。

> prompt
现在请你扮演一个在社交群聊中热爱聊天的人，我将会给你发送一段聊天记录，请你根据这些聊天记录上下文,发表跟上下文相关的一段话，你可以发表对这段话的评论，或者抛出一个新的问题，无论如何，请你直接开始你的评论和问题就可以，请千万不要让别人看出来你是一个AI，回答中也不要提到聊天记录相关的内容

猜一下，下面哪些是三胖子发出来的
![](/api/file/getImage?fileId=65f5168520e79b000d000101)
![](/api/file/getImage?fileId=65f5168520e79b000d000100)
![](/api/file/getImage?fileId=65f5168520e79b000d000102)
![](/api/file/getImage?fileId=65f568be20e79b000d000106)
![](/api/file/getImage?fileId=65f568be20e79b000d000105)

## 总结

从这段时间的横评+深度体验中，作为一个大玩具，无论是谷歌、bing还是阿里，都没有感觉到非常不可替代的差距。都处于可用、可玩的状态。但是综合速度和整活效果来说，Gemini独挡领先。

Gemini给我的一个最大感受就是结构化稳定，我在上面测试中只展示出来了成功的case，实际在使用过程中，都会出现奇怪的问题。比如bing的特点就是傲娇、嘴硬+废话多。你让他干点啥总是不能很放心的交给他，他总是动不动的给你出个乱子。

关于科技好像没有什么可说了，毕竟俺也不懂这东西，对我来说就是个完全黑盒的工具，也无法为推动这个时代的进步作出那么一点微薄之力。想更多的谈谈关于三胖子本身。我是一个唯物主义者，我相信万物除人类外皆无灵。但是我却比最虔诚的信徒还希望，人的思想不会停留在死亡那一刻。

我们总有一天会 『永失吾爱』：可能现在看起来漫长的遥不可及，可能一个意外来临就是一瞬间。那个在微信里你置顶位置的那个人，那个你嫌她啰嗦却又不舍得挂断她几十分钟的电话的那个人，那个你在想痛哭一场的时候会直接点开他的微信的人。越来越快的网速，无法拉进每一个人的距离，只会拉进你和你爱的那些人。这种热闹是短暂的，我们终究要陷入的长久的孤独之中。如果有一天有可能，我真的希望AI可以代替你所爱的人，继续在微信上活下去。之前看到过关于这一点的讨论，有些人认为，这样只会让活着的人越陷越深，永远走不出去。可是走不出去的执念，和数字生命无关吧？即使知道他的微信不再回有回复，还是会不断的给他发；即使知道人死如灯灭，有一天午夜梦醒的时候，还是会将自己的挂念转为故去之人对自己的思念。

我的机器人叫三胖子，因为我小时候叫三胖子。我让他尽可能的融入群聊，我发现什么时候他融入的最好呢？就是和大家保持一个意见，说一些废话的时候，如果不是他的头像，几乎看不出来他是一个AI；他AI风格最明显的时候，就是他突然冒出来几句『大胆』的话。突然发现，这好像就是年幼的我们，会提出一些奇怪的想法，说出一些口无遮拦的话。随着成长，磨平了棱角，成为一个又一个的复读机。

三胖子，请你继续笨下去吧。替我，给这个操蛋的世界再多一点犀利的话。