开云体育官方全站app下载

咨询手机：18928746199
公司地址：佛山市南海区桂城平洲工业园胜利路3号（距离广州南站1公里）

未来的杀手级AI应用正在扣子上匿名PK

发布时间：2024-07-21 10:29:20来源：开云体育官方全站app下载 499

　　摊开全球画卷，OpenAI依旧在通用大模型领域一骑绝尘，但整个生态百花齐放——有擅长长文本的Claude、开源王者Llama、开源新秀Mistral、画图王者Midjourny……

　　到底什么才是评估大模型的第一要义？参数、规模、价格、榜单排名？似乎都还不够，或许只有能脚踏实地在人们的生活和工作里用上大模型，并且够稳定、不出错，才是千千万万企业和用户最为关心的话题。

　　现在，打开字节跳动旗下的AI“扣子”平台，就能看到成百上千的bot，正在参与一场火热PK。

　　从2024年2月1日上线以来，扣子已经接入了多个国内知名大语言模型，包括豆包、通义千问、智谱、MiniMax、Moonshot、Baichuan等等——宛如琳琅满目的大模型“货架”，无论是哪家大模型，小中大尺寸，应有尽有。

　　无论是学英语、编程、写文案，算命，民间高人们在这些模型上开发出来的应用，能够说是五花八门。但到底怎么样才能在这些场景用得最好？

　　如果你是一位小红书博主，就可以直接打开扣子里的小红书文案生成器，搭载两个不同的大模型，实时测试比对。

　　两个Bot都使用了同样的Prompt和插件，但无论是响应速度还是返回的内容，在实时测试里，效果对比一目了然。

　　如同游戏一样，扣子模型广场提供了多种有趣的玩法，包括指定Bot对战、随机Bot对战、纯模型对战。

　　比如，在随机对战中，系统就会随机选择一个Bot，进行模型对战。这适用于评测模型在任意业务场景下的文本生成、技能和知识调用等能力——PK的两个模型都是匿名的，基于 Bot 的Prompt、工作流、知识库等能力配置，回答用户的问题。

　　PK则过程完全向用户公开。前来观光的用户，能够最终靠模型对战与两个隐藏了模型的Bot实时对话，并根据模型的回答做投票。投票结束后，广场才会揭秘具体的模型。

　　PK也不只是纯看用户投票。结果公示后，用户则可以展开结果页面，查看两个模型的详细配置，包括生成多样性、生成随机性等配置参数。

　　从2022年年底ChatGPT爆火，到如今Sora、Midjourney等多模态模型的成果震撼人心，到现在的扣子模型广场的推出，无疑是大模型生态日渐成熟后，向应用层的“上探”——人们不再讨论数字，而是开始考虑是不是可用。纵观整个AI领域的发展脉络，这也是大模型新技术走向To C化的重要一步。

　　回溯人类科技史，大概很少有技术像大模型一样，以狂风骤雨般的速度让全社会都形成共识：这是一项能够切实提升生产力，改变未来的新技术。

　　从ChatGPT背后搭载的GPT-3.5，到GPT-4和最新的GPT-4o，过去两年中里的通用大模型经历了过山车一般的发展速度。大模型、芯片厂商还在共同大炼模型，试图探索Scaling Law（缩放定律，逐步扩大参数规模和数据量，能得到更强的模型能力）的极限。仅仅以参数量来衡量，GPT-3.5参数量是1760亿，这还是一个闭源模型；到了今年，人们所能用到的最先进开源模型Llama 3，参数量就已超越4000亿。

　　更大的参数、数据量，就像土壤，是模型能力的基础，但土壤上能够长出什么样的应用——是苔藓还是参天大树，考验的是模型“有多聪明”。

　　动辄数千亿参数的模型可以展现技术前沿，如今的模型创新者们正在努力把模型做小。这相当于将模型“蒸馏”，让更小的模型能够拥有更强大的性能。2023年9月发布的Mistral 7B（70亿参数）就是小模型派的代表，能够打败130亿参数的Llama 2模型。

　　到了2024年，“小模型”的趋势更加势不可挡。Meta旗下的Llama 3发布后，旗下80亿模型（8B）的性能，就比上一代的Llama 2 700亿参数模型还要强，因此在文本、数学、编程方面的能力大大增强。

　　究其原因，这是由于Llama 3“学习”的数据密度足够丰富——用了 15 万亿 Token 的训练数据，这比Google旗下的Gemini同等模型多学了一倍还不止。

　　但尽管如此，一个现实是，现在的大模型依旧面临着“隔岸观火”的尴尬境地：在开发者圈内，模型进展日新月异，性能更强，用例也越来炫目；但在对岸，则是“看在眼里急在心里”，困惑于如何用上大模型的普通用户。

　　实际上，大模型离人们的工作和日常生活的距离还很远。数据就有所印证——MIT的一项研究显示，但就计算机视觉（CV）这样的领域来看，今天能够自动化的工作，占美国经济中占工人薪酬1.6%的任务（不包括农业），但只有23%的薪酬任务（占整个经济的0.4%）按自动化是更划算的。AI如今在人类工作流中所占据的比例，还非常小。

　　对普通的C端用户来说，AI应用更多是一个“一轮游”的存在。过去两年中火爆的AI应用，很多迎来大批试用、试玩的用户之后，真正留下的日活、周活用户寥寥无几。真正核心受众，停留在专业开发者、垂直领域的专业技术人员（如设计师、运营、写手等等）。

　　一方面，这是由于底层的通用大模型能力还要一直提升，如今的模型还有幻觉等等可控性问题，都未得到很好地解决；此外，模型的记忆能力还处在比较小的阶段，还没办法真正做到记住用户的喜好、习惯等等，更复杂的交互也无从谈起。

　　这导致如今的各类AI应用能落地的地方，集中在容错率较高的创作类场景中，如写文案、画画、对话等等，或是基于语言大模型的简单游戏。

　　更重要的是，交互层面的门槛尚处在高位——和大模型对话，对话深度有限，还需要用户研究怎么写Prompt（提示词），数据训练也有不小的理解门槛。企业端用户想要用上大模型，更是想要跨越选型、微调等工作。

　　所以，真正到了辅助决策类——企业核心工作流中，大模型其实还没办法达到可用状态。比如，根据数据分析厂商“九章数据”的统计，在数据分析场景里，用大模型生成SQL（结构化查询语言，一种数据库的核心语言）准确性约在70%左右，但剩下的30%，还需要专家人工手动检查，这就失去了以AI提升效率的意义。

　　大模型和用户侧，现在就如同渐近线一般，需要找到能够在技术和场景上相匹配之处，让用户真正“用起来”。在刚结束不久的“AI届春晚”智源大会上，智源研究院院长王仲远就表示：“国产大模型慢慢的开始无限接近 GPT-4，这在某种程度上预示着基础模型已达到可用的状态，但当它达到可用状态开始赋能千行百业，进入各行各个垂直领域，还需要找到更好的产业生态和合作模式。”

　　很多人会将大模型的爆火，比作如同移动网络那样的历史机遇。这样瞬间可唤醒很多人的记忆——如今层出不穷的AI应用，就和移动网络时期的App混战，如出一辙。

　　如果参照历史规律，从个人电脑带来的PC互联网时代，再到移动互联网时代，每一次技术革新后到大量应用出现，几乎都需要经过2-3年以上的时间——2007年，苹果推出iPhone 1，定义了移动互联网时期的交互形式，直到两年后，Uber、Whatsapp、Instagram等产品才依次出现，成为席卷全球的应用。

　　这期间发生了什么？底层的技术变革接着来进行，不断让成本下降到可以商用的水平，大量应用创新才得以出现。这会促进倒逼基础设施的变革——云计算、大数据等行业，正是由于大量移动终端增加，人们在线时长也在不断增加。

　　伴随着大模型技术革新，应用创新已渐有燎原之势。2023年，GPT-4发布后，OpenAI随即在11月上线GPTs商店，开发者用简单的套壳，就可以马上做出各式各样的应用，短短两个月内，办公、设计、生活、教育、科研、编程等所有的领域超过300万个GPTs，如同雨后春笋般出现。

　　而前不久的WWDC大会上，苹果正式官宣与OpenAI的合作——将把ChatGPT集成到iPhone、iPad和Mac设备中——宛如当年的App Store重现。

　　据Gartner技术成熟度曲线显示，现在，大模型领域的生成式AI（Generative AI）和基础模型（Foundation Models）都处于膨胀的巅峰期，再往下走，就是应用爆发时期。

　　不过，但中间还有许多工作需要完成。大模型技术浪潮爆发后，从底层的芯片、中间层的Infra架构等等，都在密集而迅速地进行一轮变革：GPU芯片需要加强推理效率，而软件中间层则需要承接大模型的大规模推理和应用需求，在算法层面降低调用成本。

　　AI的难，在于大模型本身的技术复杂性上，而在终端设备、大模型等“平台级”基础设施和前端应用之间，如今会更需要“送水人”的力量——“扣子”等AI应用开发平台，现在担当的就是这样一种角色，让大模型的能力顺利输送到使用场景之中。

　　比如，对于一位0编程经验的用户来说，现在开发AI应用几乎已无难度——和“扣子”进行交互，短到仅需要一句话即可。

　　至于用什么模型、怎么样去使用模型，也无需了解艰深的专业名词才懂得模型的性能几何。“扣子”的Home Bot就像一位手把手带你的老师，怎么样去使用模型、平台上有什么现成的Bot能够正常的使用，扣子都能给出相应的建议。

　　再到开发过程中，“扣子”现在就已经像是一个开箱即用的工作台一样，给用户更好的提供了丰富的组件选择——插件、工作流、图像流、触发器等等。如此一来，用户开发的，就再也不局限于简单的套壳应用，而可以通过联动api、封装好的模块等等，完成复杂任务的执行。

　　从去年年底上线以来，“扣子”平台上就已经有不少有趣的用例。比如，一位汽车发烧友，为了解答身边诸多好友的选车问题，就使用“扣子”的工作流功能，添加了 5 个节点，最后实现按照每个用户需求搜索车型、对比参数，到最终输出图文并茂的购车建议。

　　在5月15日的火山引擎FORCE原动力大会上，曾经展示过一个案例，一位五年级学生开发出了一个名为“青蛙外教”的智能体，并且已经将其分享给了同学朋友们一起使用。

　　从某种意义上来说，“扣子”等AI应用开发平台的最重要意义，就是将原来AI应用覆盖的开发者群体，向外延展到所有主流用户当中。在大模型本身还没有办法解决端到端的问题时，发动所有人的力量来开发各式各样的应用，才能让大模型生态加速发展。

　　而“模型广场”这样的PK形式，更是向市场发出了宝贵的信号：对于大模型这类更强调“因地制宜”，擅长解决智力密集型需求的技术而言，盲目刷榜、比拼参数已无意义。模型厂商和开发者，都应当将注意力放到一个个的应用场景中——设身处地地了解用户反馈，才可能真正找到这一阶段的PMF（Product Market Fit）。

　　如果将国内大模型火热的这两年，划分出演进的历程：前半程，所有人焦急于大模型何时可以赶上GPT-3.5，而从2023年下半年开始，话题陡然转变成了：超级应用何时到来？

　　这种讨论在2024年上半年达到顶峰。市场分化出两种截然不同的态度——不少开发者相信，随着模型规模扩大、智能水平提升，应用能力就自然会发展出来，因此就需要集中精力、资源投入到底层大模型中；而另一面则更现实主义——做大模型过于昂贵，试错成本太高。有投资人觉得，最好的方式是“见好就收”，寻找马上就能商业化的场景。

　　近期，大模型圈内的不少动作，正在加速AI应用的落地进程。就在5月，大模型领域刚刚迎来一次一样的降价潮——包括智谱、Deepseek、豆包、阿里、腾讯、讯飞在内的主流大模型厂商，都宣布了一轮模型降价。

　　就以字节旗下的火山引擎为例，5月，豆包大模型矩阵集体降价。现在，豆包主力模型在企业市场的定价就降至0.0008元/1000 Tokens，比行业价格降低99.3%。相当于，用户用1块钱，就能处理3本《三国演义》。

　　将模型价格打到地板价，固然有市场之间的竞争考虑，但更核心的着眼点，其实还是扩大开发者群体——开发AI应用的试错成本过高，导致长期以来，真正尝试做AI应用的人群太少。但在模型降价后，开发一个模型可能只需要百元、千元级别。以往对AI应用的开发顾虑，已不再是问题。

　　反过来说，AI应用供给增加，受众扩大，也会反哺到模型的开发当中。“用户规模的扩大，也将提升大模型的性能。”火山引擎总裁谭待表示。大的模型使用量，才能打磨出好模型，也能大幅度降低模型推理的单位成本。

　　类似的“好信号”还有不少。进入2024年，多模态模型的进展同样令人欣喜——无论是国外的Sora、GPT-4o、还是近期国内Dreamina、可灵等多模态模型爆火，都彻底点燃了用户对视频、图像领域应用的兴趣。破圈的AI换脸、AI翻译、虚拟人跳舞等玩法慢慢的变多。这背后，不能离开多模态的技术突破、模型推理成本的降低，以及中间层的逐步完善。

　　相对应的，现在的“扣子”平台也已经匹配上AI技术普及的脚步。在近期的更新中，扣子就慢慢的开始支持存储重要内容为关键变量、数据库——相当于给Bot外挂了一个记忆模块。而在交互体验上，“扣子”也支持配置开场白、用户问题建议、快捷指令、背景图、语音等等，还支持卡片格式输出形式。

　　简单来说，若用户现在想要开发一个能翻译、像真人一样讲话的虚拟人，操作也已经很简单——在扣子上选择正真适合的通用大模型，就可以简单训练出一个会说话，而且交互非常真实的AI助手。并且，“扣子”可以将构建的 Bot 直接发布到飞书和微信等平台，无缝嵌入到各类生产力工具中。

　　可以预见的是，随着AI应用落地门槛逐步降低，新一轮市场竞赛会迅速开始。这将让市场跨过这一段尴尬的“应用真空期”——只有真正让AI切实地融入人人可感知、可使用的产品之中，才可能消弭许多焦虑、矛盾，或是令人不安的未知状态。

上一篇：【48812】这是微软搞的天网？ChatGPT已能操控机器人：细思极恐下一篇：【48812】2006年英国工程师爱上打工妹遭岳母对立：这年纪当爸爸仍是爷爷

新闻中心 / MORE

饮料企业如何过冬——一个大区总的淡季工作思路

曝光！2024年“铁拳”暨“春雷”行动典型案例（第七批）

量贩零食店的欢喜与忧愁

未来的杀手级AI应用正在扣子上匿名PK

女聊手撩拨用户记录曝光;任正非称英语是华为工作语;

女聊手撩拨用户记录曝光;任正非称英语是华为工作语;

抖音电商推出史上力度最大的商家扶持计划 9条措施助力商家降本增收

新垣结衣电梯毛病中文版

100亿造车不够！雷军称花了300亿左右要多留点钱给员工；深蓝CEO自曝员工卖房贷款凑钱司；曝禾赛科技N+1裁员无年终奖丨雷峰早报

2024年我的工作总结

加盟商血亏20万美团闪电仓狂奔的另一面

克拉玛依青少年群体掀起“吃谷”风

广州钛动科技请求根据思想导图的大数据标签处理办法及设备专利可用于快速满意下流需求

档案密集架：防城港防城密集档案架办事处「成本较低+2025排名一览

实益达：公司的部属公司于2024年12月获得了一种关于“线性DOB货架灯”的实用新型专利

急救车租赁：惠州惠城120长途救护车租赁服务平台「收费标准」2025今日+价格一览

饮料企业如何过冬——一个大区总的淡季工作思路

曝光！2024年“铁拳”暨“春雷”行动典型案例（第七批）

量贩零食店的欢喜与忧愁

未来的杀手级AI应用正在扣子上匿名PK

女聊手撩拨用户记录曝光;​任正非称英语是华为工作语;

女聊手撩拨用户记录曝光;​任正非称英语是华为工作语;

抖音电商推出史上力度最大的商家扶持计划 9条措施助力商家降本增收

新垣结衣电梯毛病中文版

100亿造车不够！雷军称花了300亿左右要多留点钱给员工；深蓝CEO自曝员工卖房贷款凑钱司；曝禾赛科技N+1裁员无年终奖丨雷峰早报

2024年我的工作总结

加盟商血亏20万美团闪电仓狂奔的另一面

克拉玛依青少年群体掀起“吃谷”风

广州钛动科技请求根据思想导图的大数据标签处理办法及设备专利可用于快速满意下流需求

档案密集架：防城港防城密集档案架办事处「成本较低+2025排名一览

实益达：公司的部属公司于2024年12月获得了一种关于“线性DOB货架灯”的实用新型专利

急救车租赁：惠州惠城120长途救护车租赁服务平台「收费标准」2025今日+价格一览

女聊手撩拨用户记录曝光;任正非称英语是华为工作语;

女聊手撩拨用户记录曝光;任正非称英语是华为工作语;