欢迎访问开云体育官方全站app下载
全国咨询热线: 189-2874-6199
    首页 > 新闻中心 > 新闻中心

未来的杀手级AI应用正在扣子上匿名PK

发布时间:2024-07-21 10:29:20来源:开云体育官方全站app下载 499

  摊开全球画卷,OpenAI依旧在通用大模型领域一骑绝尘,但整个生态百花齐放——有擅长长文本的Claude、开源王者Llama、开源新秀Mistral、画图王者Midjourny……

  到底什么才是评估大模型的第一要义?参数、规模、价格、榜单排名?似乎都还不够,或许只有能脚踏实地在人们的生活和工作里用上大模型,并且够稳定、不出错,才是千千万万企业和用户最为关心的话题。

  现在,打开字节跳动旗下的AI“扣子”平台,就能看到成百上千的bot,正在参与一场火热PK。

  从2024年2月1日上线以来,扣子已经接入了多个国内知名大语言模型,包括豆包、通义千问、智谱、MiniMax、Moonshot、Baichuan等等——宛如琳琅满目的大模型“货架”,无论是哪家大模型,小中大尺寸,应有尽有。

  无论是学英语、编程、写文案,算命,民间高人们在这些模型上开发出来的应用,能够说是五花八门。但到底怎么样才能在这些场景用得最好?

  如果你是一位小红书博主,就可以直接打开扣子里的小红书文案生成器,搭载两个不同的大模型,实时测试比对。

  两个Bot都使用了同样的Prompt和插件,但无论是响应速度还是返回的内容,在实时测试里,效果对比一目了然。

  如同游戏一样,扣子模型广场提供了多种有趣的玩法,包括指定Bot对战、随机Bot对战、纯模型对战。

  比如,在随机对战中,系统就会随机选择一个Bot,进行模型对战。这适用于评测模型在任意业务场景下的文本生成、技能和知识调用等能力——PK的两个模型都是匿名的,基于 Bot 的Prompt、工作流、知识库等能力配置,回答用户的问题。

  PK则过程完全向用户公开。前来观光的用户,能够最终靠模型对战与两个隐藏了模型的Bot实时对话,并根据模型的回答做投票。投票结束后,广场才会揭秘具体的模型。

  PK也不只是纯看用户投票。结果公示后,用户则可以展开结果页面,查看两个模型的详细配置,包括生成多样性、生成随机性等配置参数。

  从2022年年底ChatGPT爆火,到如今Sora、Midjourney等多模态模型的成果震撼人心,到现在的扣子模型广场的推出,无疑是大模型生态日渐成熟后,向应用层的“上探”——人们不再讨论数字,而是开始考虑是不是可用。纵观整个AI领域的发展脉络,这也是大模型新技术走向To C化的重要一步。

  回溯人类科技史,大概很少有技术像大模型一样,以狂风骤雨般的速度让全社会都形成共识:这是一项能够切实提升生产力,改变未来的新技术。

  从ChatGPT背后搭载的GPT-3.5,到GPT-4和最新的GPT-4o,过去两年中里的通用大模型经历了过山车一般的发展速度。大模型、芯片厂商还在共同大炼模型,试图探索Scaling Law(缩放定律,逐步扩大参数规模和数据量,能得到更强的模型能力)的极限。仅仅以参数量来衡量,GPT-3.5参数量是1760亿,这还是一个闭源模型;到了今年,人们所能用到的最先进开源模型Llama 3,参数量就已超越4000亿。

  更大的参数、数据量,就像土壤,是模型能力的基础,但土壤上能够长出什么样的应用——是苔藓还是参天大树,考验的是模型“有多聪明”。

  动辄数千亿参数的模型可以展现技术前沿,如今的模型创新者们正在努力把模型做小。这相当于将模型“蒸馏”,让更小的模型能够拥有更强大的性能。2023年9月发布的Mistral 7B(70亿参数)就是小模型派的代表,能够打败130亿参数的Llama 2模型。

  到了2024年,“小模型”的趋势更加势不可挡。Meta旗下的Llama 3发布后,旗下80亿模型(8B)的性能,就比上一代的Llama 2 700亿参数模型还要强,因此在文本、数学、编程方面的能力大大增强。

  究其原因,这是由于Llama 3“学习”的数据密度足够丰富——用了 15 万亿 Token 的训练数据,这比Google旗下的Gemini同等模型多学了一倍还不止。

  但尽管如此,一个现实是,现在的大模型依旧面临着“隔岸观火”的尴尬境地:在开发者圈内,模型进展日新月异,性能更强,用例也越来炫目;但在对岸,则是“看在眼里急在心里”,困惑于如何用上大模型的普通用户。

  实际上,大模型离人们的工作和日常生活的距离还很远。数据就有所印证——MIT的一项研究显示,但就计算机视觉(CV)这样的领域来看,今天能够自动化的工作,占美国经济中占工人薪酬1.6%的任务(不包括农业),但只有23%的薪酬任务(占整个经济的0.4%)按自动化是更划算的。AI如今在人类工作流中所占据的比例,还非常小。

  对普通的C端用户来说,AI应用更多是一个“一轮游”的存在。过去两年中火爆的AI应用,很多迎来大批试用、试玩的用户之后,真正留下的日活、周活用户寥寥无几。真正核心受众,停留在专业开发者、垂直领域的专业技术人员(如设计师、运营、写手等等)。

  一方面,这是由于底层的通用大模型能力还要一直提升,如今的模型还有幻觉等等可控性问题,都未得到很好地解决;此外,模型的记忆能力还处在比较小的阶段,还没办法真正做到记住用户的喜好、习惯等等,更复杂的交互也无从谈起。

  这导致如今的各类AI应用能落地的地方,集中在容错率较高的创作类场景中,如写文案、画画、对话等等,或是基于语言大模型的简单游戏。

  更重要的是,交互层面的门槛尚处在高位——和大模型对话,对话深度有限,还需要用户研究怎么写Prompt(提示词),数据训练也有不小的理解门槛。企业端用户想要用上大模型,更是想要跨越选型、微调等工作。

  所以,真正到了辅助决策类——企业核心工作流中,大模型其实还没办法达到可用状态。比如,根据数据分析厂商“九章数据”的统计,在数据分析场景里,用大模型生成SQL(结构化查询语言,一种数据库的核心语言)准确性约在70%左右,但剩下的30%,还需要专家人工手动检查,这就失去了以AI提升效率的意义。

  大模型和用户侧,现在就如同渐近线一般,需要找到能够在技术和场景上相匹配之处,让用户真正“用起来”。在刚结束不久的“AI届春晚”智源大会上,智源研究院院长王仲远就表示:“国产大模型慢慢的开始无限接近 GPT-4,这在某种程度上预示着基础模型已达到可用的状态,但当它达到可用状态开始赋能千行百业,进入各行各个垂直领域,还需要找到更好的产业生态和合作模式。”

  很多人会将大模型的爆火,比作如同移动网络那样的历史机遇。这样瞬间可唤醒很多人的记忆——如今层出不穷的AI应用,就和移动网络时期的App混战,如出一辙。

  如果参照历史规律,从个人电脑带来的PC互联网时代,再到移动互联网时代,每一次技术革新后到大量应用出现,几乎都需要经过2-3年以上的时间——2007年,苹果推出iPhone 1,定义了移动互联网时期的交互形式,直到两年后,Uber、Whatsapp、Instagram等产品才依次出现,成为席卷全球的应用。

  这期间发生了什么?底层的技术变革接着来进行,不断让成本下降到可以商用的水平,大量应用创新才得以出现。这会促进倒逼基础设施的变革——云计算、大数据等行业,正是由于大量移动终端增加,人们在线时长也在不断增加。

  伴随着大模型技术革新,应用创新已渐有燎原之势。2023年,GPT-4发布后,OpenAI随即在11月上线GPTs商店,开发者用简单的套壳,就可以马上做出各式各样的应用,短短两个月内,办公、设计、生活、教育、科研、编程等所有的领域超过300万个GPTs,如同雨后春笋般出现。

  而前不久的WWDC大会上,苹果正式官宣与OpenAI的合作——将把ChatGPT集成到iPhone、iPad和Mac设备中——宛如当年的App Store重现。

  据Gartner技术成熟度曲线显示,现在,大模型领域的生成式AI(Generative AI)和基础模型(Foundation Models)都处于膨胀的巅峰期,再往下走,就是应用爆发时期。

  不过,但中间还有许多工作需要完成。大模型技术浪潮爆发后,从底层的芯片、中间层的Infra架构等等,都在密集而迅速地进行一轮变革:GPU芯片需要加强推理效率,而软件中间层则需要承接大模型的大规模推理和应用需求,在算法层面降低调用成本。

  AI的难,在于大模型本身的技术复杂性上,而在终端设备、大模型等“平台级”基础设施和前端应用之间,如今会更需要“送水人”的力量——“扣子”等AI应用开发平台,现在担当的就是这样一种角色,让大模型的能力顺利输送到使用场景之中。

  比如,对于一位0编程经验的用户来说,现在开发AI应用几乎已无难度——和“扣子”进行交互,短到仅需要一句话即可。

  至于用什么模型、怎么样去使用模型,也无需了解艰深的专业名词才懂得模型的性能几何。“扣子”的Home Bot就像一位手把手带你的老师,怎么样去使用模型、平台上有什么现成的Bot能够正常的使用,扣子都能给出相应的建议。

  再到开发过程中,“扣子”现在就已经像是一个开箱即用的工作台一样,给用户更好的提供了丰富的组件选择——插件、工作流、图像流、触发器等等。如此一来,用户开发的,就再也不局限于简单的套壳应用,而可以通过联动api、封装好的模块等等,完成复杂任务的执行。

  从去年年底上线以来,“扣子”平台上就已经有不少有趣的用例。比如,一位汽车发烧友,为了解答身边诸多好友的选车问题,就使用“扣子”的工作流功能,添加了 5 个节点,最后实现按照每个用户需求搜索车型、对比参数,到最终输出图文并茂的购车建议。

  在5月15日的火山引擎FORCE原动力大会上,曾经展示过一个案例,一位五年级学生开发出了一个名为“青蛙外教”的智能体,并且已经将其分享给了同学朋友们一起使用。

  从某种意义上来说,“扣子”等AI应用开发平台的最重要意义,就是将原来AI应用覆盖的开发者群体,向外延展到所有主流用户当中。在大模型本身还没有办法解决端到端的问题时,发动所有人的力量来开发各式各样的应用,才能让大模型生态加速发展。

  而“模型广场”这样的PK形式,更是向市场发出了宝贵的信号:对于大模型这类更强调“因地制宜”,擅长解决智力密集型需求的技术而言,盲目刷榜、比拼参数已无意义。模型厂商和开发者,都应当将注意力放到一个个的应用场景中——设身处地地了解用户反馈,才可能真正找到这一阶段的PMF(Product Market Fit)。

  如果将国内大模型火热的这两年,划分出演进的历程:前半程,所有人焦急于大模型何时可以赶上GPT-3.5,而从2023年下半年开始,话题陡然转变成了:超级应用何时到来?

  这种讨论在2024年上半年达到顶峰。市场分化出两种截然不同的态度——不少开发者相信,随着模型规模扩大、智能水平提升,应用能力就自然会发展出来,因此就需要集中精力、资源投入到底层大模型中;而另一面则更现实主义——做大模型过于昂贵,试错成本太高。有投资人觉得,最好的方式是“见好就收”,寻找马上就能商业化的场景。

  近期,大模型圈内的不少动作,正在加速AI应用的落地进程。就在5月,大模型领域刚刚迎来一次一样的降价潮——包括智谱、Deepseek、豆包、阿里、腾讯、讯飞在内的主流大模型厂商,都宣布了一轮模型降价。

  就以字节旗下的火山引擎为例,5月,豆包大模型矩阵集体降价。现在,豆包主力模型在企业市场的定价就降至0.0008元/1000 Tokens,比行业价格降低99.3%。相当于,用户用1块钱,就能处理3本《三国演义》。

  将模型价格打到地板价,固然有市场之间的竞争考虑,但更核心的着眼点,其实还是扩大开发者群体——开发AI应用的试错成本过高,导致长期以来,真正尝试做AI应用的人群太少。但在模型降价后,开发一个模型可能只需要百元、千元级别。以往对AI应用的开发顾虑,已不再是问题。

  反过来说,AI应用供给增加,受众扩大,也会反哺到模型的开发当中。“用户规模的扩大,也将提升大模型的性能。”火山引擎总裁谭待表示。大的模型使用量,才能打磨出好模型,也能大幅度降低模型推理的单位成本。

  类似的“好信号”还有不少。进入2024年,多模态模型的进展同样令人欣喜——无论是国外的Sora、GPT-4o、还是近期国内Dreamina、可灵等多模态模型爆火,都彻底点燃了用户对视频、图像领域应用的兴趣。破圈的AI换脸、AI翻译、虚拟人跳舞等玩法慢慢的变多。这背后,不能离开多模态的技术突破、模型推理成本的降低,以及中间层的逐步完善。

  相对应的,现在的“扣子”平台也已经匹配上AI技术普及的脚步。在近期的更新中,扣子就慢慢的开始支持存储重要内容为关键变量、数据库——相当于给Bot外挂了一个记忆模块。而在交互体验上,“扣子”也支持配置开场白、用户问题建议、快捷指令、背景图、语音等等,还支持卡片格式输出形式。

  简单来说,若用户现在想要开发一个能翻译、像真人一样讲话的虚拟人,操作也已经很简单——在扣子上选择正真适合的通用大模型,就可以简单训练出一个会说话,而且交互非常真实的AI助手。并且,“扣子”可以将构建的 Bot 直接发布到飞书和微信等平台,无缝嵌入到各类生产力工具中。

  可以预见的是,随着AI应用落地门槛逐步降低,新一轮市场竞赛会迅速开始。这将让市场跨过这一段尴尬的“应用真空期”——只有真正让AI切实地融入人人可感知、可使用的产品之中,才可能消弭许多焦虑、矛盾,或是令人不安的未知状态。

新闻中心 / MORE
常见问题 / MORE

地步到货架:意大利食物价格涨幅最高达20倍

  欧分的价格,要怎样解说相同的这些西红柿,在超市的货架上价格翻三倍有余,能到达   最

超市里这一些产品大幅降价了!

  巴黎8月17日(鲁佳)法国国家计算与经济研究所(Insee)注意到,2024年7月,超

绿色新鲜蔬菜展架易拉宝进口蔬菜展架

  本著作全称为《绿色精约风新鲜蔬菜宣扬构思展架》,由迷南文化传媒(上海)有限公司规划师李