字节跳动大模型：实用，实用主义_观察与评论_专家观点

字节跳动大模型：实用，实用主义

2024年07月03日 08:03 来源:奇点财经

作者丨陈江

来源丨零壹智库

字节跳动无疑是当前互联网平台的流量之王，也是媒体眼中的实用主义者。在当红的大模型赛道上，流量手段和实用路径依然体现得淋漓尽致。

“算法”基因

其实，字节挑动在AI方面的布局、应用的时间可能远早于一众大厂。2012年刚成立的时候，字节推出基于智能推荐算法的产品“今日头条”APP，成为国内最早将人工智能技术运用到移动应用场景的科技公司之一。

2016年，字节跳动更进一步，成立人工智能实验室，开始针对AI技术进行系统性的研发与储备。2019年，字节收购了英国一家利用人工智能创作音乐的公司Jukedeck，后者创始人&CEO埃德·牛顿-里克斯（Ed Newton-Rex）随后加盟字节跳动并担任人工智能实验室主任。

2020年之后，字节又将AI技术广泛应用在抖音、今日头条等APP上，推出绘画、特效类等AIGC功能，同时也积极探索大模型应用场景，比如抖音AI绘图、飞书智能伙伴、剪影AI生成视频等。

除了自己发力研发外，字节跳动还对外做了大量的人工智能相关投资。

据零壹智库梳理统计，截至目前，字节在人工智能领域出手投资达到26次（含并购），其中行业应用层面19次，占比73.1%。

在大模型方面，字节比百度等大厂略晚，2023年8月，宣布云雀大模型上线，但也赶上了备案头班车，成为国内首批算法备案的大模型之一。这亦是“豆包”等一些列应用产品的技术支撑与底座。上线后，该大模型每天平均处理的token数量高达1200亿，相当于1800亿的汉字或生成3000万张图片。02

全家桶

今年5月15日，2024春季火山引擎FORCE原动力大会在北京举行。会上，字节跳动旗下火山引擎正式全员亮相了豆包大模型。这是一个模型大家族，包括通用模型pro、通用模型lite、语音识别模型、语音合成模型、文生图模型等9款产品。

而此时，豆包在流量上已经以迅雷之势站上舞台中央。

据原动力大会发布的数据显示，豆包在苹果APP Store和各大安卓应用市场的下载量突破1亿，在AIGC类应用中排名第一，月度活跃用户突破2600万，智能体创建总数达800万。

To B方面，火山引擎于2023年6月上线了MaaS平台，即火山方舟。这个平台汇集了国内科技公司和科研院所的优秀模型（比如百川智能、复旦大学MOSS等），有点类似打造大模型领域的电商平台模式，帮助企业为不同场景选择合适的模型，同时提供充沛算力、安全互信等方面的支持。

火山方舟发布后，公司与汽车、手机、金融、食品饮料等领域的龙头企业展开了密切合作，包括吉利汽车、长城汽车、OPPO、vivo、小米、华硕、招商银行、海底捞等。

不管是面向个人消费者的C端，亦或是面向广大产业的B端，字节均是有了相当的用户基数之后，再做大模型的全面发布。这种战略与其他绝大多数玩家是不一样的，后者往往是将大模型和应用产品一同发布，再去开拓市场。

本次字节全员亮相的豆包大模型（前身即云雀），涵盖了文本对话、语音识别与合成、声音复刻、角色扮演、文生图等基础功能与产品，并进行了多方面的升级。其应用场景非常广泛，包括但不限于办公智能助手、电商导购、营销创作、编程助手等50余个业务场景。

针对B端，火山方舟已升级到2.0，可以让企业更加高效、简易地实现AI创新和应用落地，同时降低企业使用大模型的成本和技术门槛。应用场景包括智能外呼、数字人、数据助理等等。03

价格战

为了抢占企业用户市场份额，字节大模型大打价格战。其中，豆包主力模型在企业市场的定价为0.00008元/千Tokens，比行业价格降低了99.3%。

数据来源：火山引擎FORCE原动力大会，零壹智库

对于大降价原因，火山引擎总裁谭待在接受媒体采访时表示，一方面，字节跳动在在模型结构、训练、生产等各种技术层面都能做到很好，有很多优化手段能够实现降价。此外，市场对降价呼声比较大，平台必须把试错成本做到非常低，才能让大家用起来。

另一方面，用户规模的扩大也将提升大模型的性能。大的使用量，才能打磨出好模型，也能大幅降低模型推理的单位成本。

B端企业市场是大模型厂商的兵家必争之地，因为可以提供更直接、且可以预测的现金流收入。而C端要落地到具体应用中，需要很长的时间来开发市场、教育用户，并且如何盈利一切都是未知数。

百度的文心一言、阿里的通义千问服务的企业客户众多，分别高达8.5万家、9万家，市场占有率相对更高一些。

豆包大模型价格大降，亦是想通过价格战与百度、阿里正面PK，抢夺更多的企业用户。

面对字节的打骨折，阿里宣布跟进大降价，将通义千问GPT-4级别的主力模型Qwen-Long的API输入价格，从每千个token的0.02元降至0.0005元，比字节还低0.0003元。04

砸广告

在C端市场，字节跳动亦是高举高打。

据Quest Mobile数据显示，2024年1月，豆包APP在人工智能生成内容（AIGC）APP活跃用户排行榜中排名第一。到了3月，月活用户量亦是文心一言的1.5倍。

即便如此，豆包依然不满足，将重心放在如何搞流量上。

用户活跃数、访问使用量等核心经营指标是C端大模型厂商能否活下去，或者说未来能够实现商业化的核心基础。包括豆包在内的大模型厂商掀起了烧钱大战，买用户。

据AppGrowing统计，2024年6月第一周（6/3-6/9），豆包素材投放量高达26521个，环比增长38.6%。相对而言，Kimi为14451个，环比增长160.7%；智谱清言为1866个，环比飙升2456%。

线上渠道方面，大厂们主要聚焦在吸纳了众多年轻人的B站社区上，6月第一周AI广告投放量是去年同期的3-4倍。

除B站外，线上推广渠道进一步扩散至小红书、抖音等平台。比如，在抖音平台上，单个AI相关词条下，豆包硬广、软广外，还有头部达人带货。在小红书上，合作KOL发布体验视频、利用话题标签增加曝光、举办互动问答和抽奖活动等方式进行推广。

线下渠道方面，一二线主要城市的写字楼、地铁、机场等白领聚集的场所，都成为推广的重要战场。

仅仅在6月上旬，豆包广告投放金额就已经高达1.24亿元，令众多大厂有些望尘莫及。05

犯忌讳

此外，为了流量，豆包大模型剑走偏锋，甚至“不择手段”。

今年5月底，据一些网友爆料，百度和谷歌的搜索结果中，除了广告之外，第一页全部来自豆包生成的内容。在谷歌搜索引擎里更是生成超过2000万条各式各类的词条内容并进行固化。

这些内容也会关联搜索引擎高点击率的关键词，从而获取访问流量，或者被其他大模型抓取并使用，以达到推广豆包之目的。

豆包的做法，也并不难理解。简单来说，通过数据进行训练，训练好后对人类的原创内容进行“洗稿”，再将之作为“全新原创”内容，并通过算法进行大量分发，进入到搜索引擎数据库中。

去年的一篇论文——《递归的诅咒：在生成数据上训练会使模型遗忘》就详细讲解了当模型使用生成的数据进行训练时，生成数据如何污染下一代模型的训练集，导致模型逐渐失去对原始数据的正确感知，出现模型崩溃现象。

很快，豆包的做法引发了社会舆情的反弹以及其他AI大模型厂商的警觉。一方面，豆包自己进行了整改与优化。另一方面，谷歌下架了所有豆包的词条内容。此外，国内各大互联网公司也针对AI生成的词条以及低质量的语料修改了算法。

分享新闻：

新闻推荐