文章      动态     相关文章     最新文章     手机版动态     相关动态     |   首页|会员中心|保存桌面|手机浏览

6r8oh

http://6r8oh.kub2b.com/

相关列表
文章列表
  • 暂无文章
推荐文章
33 亿美元估值!ElevenLabs CEO:AI 语音改写下一代交互规则
发布时间:2025-07-30        浏览次数:3        返回列表
图片

(ElevenLabs CEO访谈精彩片段)

2024年1月30日,语音 AI 独角兽 ElevenLabs 宣布完成 1.8 亿美元 C 轮融资,估值跃升至 33 亿美元,a16z 与 IConIQ Growth 联合领投。短短两年多,这家创立于伦敦的初创公司,估值飙涨了 30 倍——不同于大模型的火爆,语音技术这条被边缘化已久的赛道,突然被资本推向了聚光灯下。

5个月后,ElevenLabs 联合创始人兼 CEO Mati Staniszewski 现身红杉资本播客《Training Data》。节目中,他给出了一个明确判断:

Voice First(语音优先)将是下一代通用交互界面。

他说这不是愿景,而是他们已经完成的技术闭环:

这意味着,当其他公司还在优化 prompt 输入框的体验时,ElevenLabs 已经把输出的标准从“看见”切换为“听见”——

语音,正在成为人机协作的第一层接口。

Staniszewski 在对话中指出了一点:

“你以为语音是配音工具,但真正难的是——如何把它变成人类使用 AI 的系统入口。”

对所有内容、产品与增长团队来说,这不是简单地加个功能,而是要改变交互方式。

第一节|从黑客周到 33 亿:ElevenLabs 如何突围语音赛道

ElevenLabs 的故事并不是从融资开始的。

它起点很小——两个高中同学,一起写代码,一起打游戏,后来一个去了 Google,一个去了 Palantir,但每到周末还是会聚在一起做黑客小项目。

他们试过搭推荐算法,也做过加密风险分析器,甚至做过一个分析“你说话方式”的原型工具。Mati 在访谈中说:我们当时就想,我们说话的方式,其实包含了很多情绪、节奏、意图。可当时并没有一个模型能帮你真正理解这一点。

语音技术成为了他们持续探索的核心方向。但真正的转折点发生在 2021 年末。

那天,Piotr( Piotr Dąbkowski,ElevenLabs 的联合创始人兼 CTO) 和女友想看一部英语电影,女友不会英语,于是他们打开了波兰语音轨。结果是,全片几十个角色,只有一个人用同样的声音在配音。男主女主、老人小孩,全是一种平淡的语气。

这让我们想起小时候的体验,在波兰,外语电影几乎都是这样配音的。

几十年了,这个问题居然还没解决。

他们意识到一个问题被忽视了:人们对语音的要求,从来不只是听得懂,而是想能听出是谁、在表达什么。

在当时,大部分研究资源和投资都涌向了文本生成和图像领域。语音这一块,被视为“应用层的小工具”。但两人却觉得这里存在一个空白。

他们找到了一个开源项目——Tortoise TTS。虽然模型还不稳定,但第一次让他们看到:机器的确可以用接近人的语气来说话,甚至模仿一个人说话的感觉。

Mati 说:当我们听到它生成的那段音频,我们都停下来,互相看了一眼:‘这也太像人了吧。’那一刻,我们就决定了——这就是要做的。

模型不是问题,问题是怎么让它能用

这之后的几个月里,他们没有急着上线,而是搭了整套“从研究到上线”的流程。他们重新训练模型,设计更好的情绪表达机制,雇人标注语调,甚至自己构建数据采集系统。Mati 回忆道:

“语音不是数据多的问题,而是没办法直接用的问题。我们要自己建立一个新的‘声音语言系统’。”

当别人在做语音合成的功能,他们已经开始构建语音生成的基础设施。

这就是 ElevenLabs 最早的原型系统,支持输入任意文本,输出有情绪、有角色感的语音内容。Mati 的说法是:

第一阶段我们解决了一个事:机器不是在念字,而是在说话。

我们原本只想测一测,结果他们拿去做书了

这种“听上去像人”的突破,在 2022 年底引发了一小波关注。第一批使用者是图书作者,他们把整本书粘贴进 ElevenLabs 的测试工具里,生成有声书上传平台,居然收获了真实读者的正面评论。平台甚至没能分辨那是 AI 生成的。

Mati 回答说:我们原本只是做了一个几百字的文本框,有作者硬是粘贴整本书进去生成语音,然后带着他的朋友们一起来用了。

这不是他们计划中的推广动作,但却验证了一件事:当语音听起来不再像机器在念稿子,而是像真人在说话时,各种应用场景就会自然而然地涌现出来。

那是 ElevenLabs 第一次意识到,他们做的不只是“让声音变得更好听”,而是在构建一个新的内容输出层。

第二节|声音再好听,卡顿也没用:语音落地三件事

在大模型席卷一切的这两年,很多人不看好 ElevenLabs。

“OpenAI、Google、Anthropic 都在搞多模态,语音只是他们的一个功能。你们这个小公司,怎么竞争?”

Mati 并不回避这个问题:我们不想正面撞上大模型。我们专注做语音的每一个细节,跑通整个链条,然后把这些能力变成其他产品能用的‘语音接口’。

语音模型,不是调得准就能用

ElevenLabs 从一开始就不是在调一个模型,而是在打通一整条语音生成的工作流。Mati 在访谈中表示:

语音技术不拼参数,拼落地

这个流程,分为三个核心要素:

用 Mati 的话说:文本很容易找到几亿条干净样本,但语音没这么幸运。

他们遇到的第一个难点,就是“语音背后没有足够标签”。很多音频只有原文字幕,没有说话人的身份信息,没有语气情绪标注,更没有“怎么说”这部分数据。

所以他们不得不从头做起:建立了自己的数据标注团队,设置语音教练,让标注员去识别语音的情感和说话方式,再由教练逐一审核。

他们发现,训练模型没那么难,难的是让它听懂人类交流的方式。

不是念出来,而是理解怎么说

普通人可能会觉得,语音生成就是“把字转成声音”。但 ElevenLabs 做的,是让 AI 明白这段话该怎么说。

Mati 举了一个简单例子:比如你说一句‘今天真是太好了’,如果上下文是讽刺,这句话语调就完全不同。

这就涉及到上下文的感知与语气调节,远比“生成一段语音”复杂得多。你不仅要判断这句话本身,还要知道前面发生了什么、后面要说什么。

他们为此重新设计了模型结构,不只是逐字预测声音,而是构建了“情绪理解 + 语气调配 + 语音合成”三个阶段。

而另一个突破点是,他们选择不对声音做人工设定。不手动设置这个声音是男是女,是老是少。他们让模型自己决定特征怎么组合,再自然地表达出来。

这也是 ElevenLabs 最早实现“保留发声者声纹”的底层设计逻辑:不限制声音形态,而是捕捉情绪和说话方式,让 AI 还原“这个人”怎么说话。

声音再好听,卡顿也是失败

但即使声音说得像人,产品也未必能上线——还要解决“听得快不快”“稳不稳定”。

Mati 说过一句话:

“对企业用户来说,如果延迟太长,就永远不会有人用。”

所以 ElevenLabs 在模型设计上选择了“小体积 + 高效结构”,将语音生成的延迟压到 75 毫秒以内,远低于大模型多轮调用的耗时。

同时他们也在多个生产环境中测试稳定性,比如与 Epic Games 合作,让上百万用户与游戏中的 AI 角色进行实时对话。

“你没法预测用户会说什么,但系统要能快速反应,还不能崩。”

这些细节,不是论文里能写的参数,而是落地里最真实的挑战。

所以他们才要:

Mati 最后总结是:

“我们赢,不是因为声音最完美,而是因为这套东西真正跑得通了。”

第三节|从配音到代理:语音开始接管任务

ElevenLabs 的第一个“爆点”,并不是他们自己设计的。

最先用上这项技术的,是一群内容创作者。他们没有照着产品手册来,而是直接把语音合成当成主力工具,用它生成有声书、人物对白,甚至整段虚拟剧情。

这些内容在多个平台上线,并迅速获得真实听众的点赞、评论和转发。

这类用户让团队意识到:语音不只是让内容更自然,而是能独立完成一整件事。

从 AI 叙述,到创作者合作,再到真实 IP 出声

在2023年初,一段由 AI 合成的 “哈利·波特 × Balenciaga” 视频走红网络。配音的不是真人,而是 ElevenLabs 的声音。

之后不久,ElevenLabs 开始接到越来越多来自创作者的请求:

Mati 认为:我们最早也没想到这种爆发会来自内容创作者,尤其是做无脸视频和频道的那批人。

这些用户不是用语音来功能演示,而是直接把它作为内容主力生产工具。

于是,一个新趋势出现了:说话,不再只是表达情绪,而是执行任务。

从能说话,到能完成任务,才是语音的分界线

这类合作越来越多,ElevenLabs 开始意识到:

真正有价值的语音,并不是生成得多自然,而是能不能连接到任务。

Mati 在访谈里说了一句话:我们不是做语音特效,而是在构建人和 AI 的自然接口,让它能完成真实任务。

这背后的变化是:

从“让 AI 会说话”,到“让人可以用说话控制 AI”。

这个变化也决定了语音模型的能力边界—— 不再是输出声音,而是驱动行为。

第四节|客户只问三件事:听感、速度、规模

图片

在语音 AI 这个行业,有个常见误区:做得越复杂、参数越多,客户就越满意。

Mati 却给了一个完全不同的答案。

“如果你站在客户的角度看,他们根本不关心你模型的论文有多漂亮。他们只看三件事:听起来自然吗?生成速度够快吗?能不能大规模稳定用?”

这就是 ElevenLabs 在早期接触企业客户时学到的最重要一课:你要的可能是技术突破,他们要的是落地应用。

他们把这三件事称为——质量、延迟、可靠性。

第一个问题:听起来像人吗?

“像人”,不是指语音合成得清楚,而是听起来有真实的情绪和节奏。

如果一个声音在情绪上是平的,在语调上没起伏,再自然的发音也不会有人愿意听下去。

尤其在讲故事、产品介绍、播客配音这类场景下,声音能不能“抓住注意力”变得非常关键。

为此,ElevenLabs 在背后下了很多功夫:

这些工程工作,不一定出现在参数表上,但却直接决定了听众的感受。

第二个问题:说得快不快?

无论内容多精彩,如果你每等 3 秒才听到一句话,那产品就废了。

也就是如果延迟太高,你再厉害都没人用。

ElevenLabs 的目标是把语音生成的响应时间压缩到 75 毫秒以内。这是什么概念?大概是你正常眨一次眼的时间。

这个指标背后,是对每一层调用链路的优化:

他们把语音合成模块做轻,在不牺牲表现力的前提下大幅提高速度,让用户感觉是在跟真人对话,而不是“等一句播报”。

这点在他们为《堡垒之夜》打造“达斯·维达”语音代理时,尤为重要:上百万用户同时在说话,如果响应不够快,整个体验就崩了。

第三个问题:能不能大规模部署?

很多语音工具在 demo 阶段表现不错,但一旦用户量一上来,声音质量就波动,模型崩溃,接口超时。

因为你不是在做一个模型,而是在建一整套语音基础设施。能不能抗住并发、保证一致性,这才是客户最在意的。

ElevenLabs 之所以能拿下 Epic Games、Time 杂志等合作项目,不是因为声音最花哨,而是因为他们能把产品稳定交付:

说白了,就是给客户交一套“能长期跑得稳”的工具,而不是一场“技术秀”。

在这场语音 AI 的产品竞争中,ElevenLabs 拿下的不是榜单排名,而是真实客户的持续使用。

第五节|语音接口不重要,重要的是怎么用

Mati 在访谈中说出了一个经常被忽视的出发点:

语音不该只是个配音模块,它是人类最自然的交互方式之一。

如果 AI 真要进入日常生活,语音迟早会成为默认入口。

为什么这么说?他给出了三个关键原因:

在 ElevenLabs 看来,“Voice First”不是一个口号,而是一条新的平台路径:不是把语音嵌入产品里,而是让语音承载产品交互本身。

 教育场景:你不再看教程,而是听懂操作

ElevenLabs 与 chess.com 合作的项目,是个非常典型的用例。

他们不是帮棋谱加个配音,而是构建了一个语音教练系统——你一边下国际象棋,一边听到“卡尔森”“卡斯帕罗夫”式的声音教你下一步为什么错了、下一步该怎么走。

Mati 认为:

我们的目标是让你像小时候学骑车一样,

旁边有人在语音里陪着你走每一步。

相比看教程、读提示,这种方式的反馈更直接,也更容易被吸收。

ElevenLabs 押注的,就是未来每个用户都有一个听得懂你的语音教练,不论是下棋、学数学,还是练习口语。

翻译场景:你自己说话,对方听懂的那一刻

跨语言交互曾经是语音领域的大难题。大多数翻译工具,要么声音不对,要么语序混乱,要么语气不自然。

2024 年底,ElevenLabs 推出了支持多语言语音复制的系统。最具标志性的案例,是他们和《Lex Fridman 播客》的合作:

Lex 与印度总理莫迪的访谈,原本是英语与印地语双语。ElevenLabs 用模型,把整场对话分别翻译为:

这个项目在印度广泛传播,有读者评论说:“我第一次感觉他们真的在对话,而不是在对着字幕演。”

Mati 阐述了他的核心观点:

“语言只是表面,声音才是交流的本体。我们想保留的,不只是意思,而是说话方式。”

这也让人看到另一个可能:未来你可以用自己的声音和情感,和全世界任何人说话——他们听到的是你,理解的却是他们自己的语言。

代理场景:语音+指令+执行,三合一闭环

更远一点的场景是代理。

Mati 认为,未来每个人都会有一个自己的 AI 助手,而语音会成为整个操作链的触发方式。

他说:不需要屏幕,也不需要点击,你说一句话,它就能完成一整件事。

从调出日历、发送邮件,到打电话预约、总结会议纪要,所有这些动作都可以通过语音启动。

ElevenLabs 已经在部分合作项目中实现了语音→理解→生成→执行的链路接通。

过去,用户用 AI 是这样一套流程:

打开软件 → 输入文字 → 等输出 → 自己判断 → 自己再点下一步

而在语音成为入口之后,这一切正在改变:

说一句话 → AI 理解 → AI 回应 → AI 做事

他们想做的不是提升界面体验,而是换掉原来的操作方式。

如果你用说的就能完成任务,那为什么还要动手?

ElevenLabs 押注的不是技术路线,而是使用方式的根本变化——语音,不只是信息的载体,而是整个交互的起点。

第六节|不是像人说话,是能接入工作流

Mati 在访谈中提到,许多企业在使用语音 AI 时,最大顾虑并不是“声音像不像”,而是:这些语音能不能接入我们的业务流程?能不能控,能不能管?

换句话说,企业最担心的问题,不是音色,而是 流程。

语音技术要想真正进入工作流,就必须具备几个关键能力:可控、可调、可接入。

ElevenLabs 用一句话总结他们的目标:

说得像人,还不够;我们要的是能接入任务链的声音。

多场景部署:不是插件,是语言层的中控台

Mati 在播客里透露,ElevenLabs 已经进入多个企业场景测试,背后用的是一套“语音控制台”结构:

正如 Mati 所说:

“这不是给语音加个面板,而是把它当作新的控制层,让企业可以像调控文案一样,调控语音。”

很多使用企业在初期以为只是找个更好听的声音播报员,用后才发现这是一个嵌入式语言代理系统。

典型场景一:客服对话 + CRM 更新 = 一句话完成

ElevenLabs 已在欧美市场试点,将语音助手部署进 CRM(客户管理系统)。

用户只需说一句话,比如:帮我查一下这个客户过去两个月的投诉记录,并添加一个跟进计划。

AI 助手就可以完成:

这不是语音替代客服人员,而是语音作为交互方式,帮人做事更快。

他们不是在取代人,而是在帮人少切 10 个窗口、少填 20 个框。

典型场景二:多语言内部培训、文档口语化

另一个被快速接受的场景,是企业内部培训与知识分享。

很多跨国公司拥有大量非英语员工,阅读英文文档存在困难。过去的方案要么翻译 PDF,要么字幕视频,效果都不理想。

ElevenLabs 的做法是:

Mati 提到:

“我们遇到一个客户,他们发现:员工对听老员工讲流程更容易接受,而不是看一堆说明文。”

语音的天然优势,在这个场景中释放得非常彻底。

如何落地?三点建议

虽然 ElevenLabs 目前尚未大规模进入全球市场,但他们的架构经验对 AI 音频创业者有三点重要启发:

最后一点,企业要的不是声音好听,而是声音好用。

这句话,道出了语音 AI 从技术演示走向企业刚需的关键转折点。

结语|谁先用语音做事,谁就能定义交互未来

ElevenLabs 的成功印证了一个观点:

语音 AI 的关键,不只是听上去像人,而是用起来像工具。

它不是把内容读一遍,而是成为真正的操作界面—— 从表达、执行,到跨语言协同,全都归于一句话:

“谁先把语音接入任务链,谁就能重写下一代交互方式。”

这不是想象,是现实正在发生。

GPT 让人能说话像专家,ElevenLabs 则让工具开口干活。

对国内内容、产品、服务团队来说,门槛正在迅速下降。 下一步的关键,不是选什么技术,而是你是否愿意把语音当入口,而不是辅助功能。

现在是关键期,再晚一步,就要跟在别人定义的声音节奏后面走了。