当前位置:首页 > 服务内容 > 火狐棋牌

联汇科技赵天成:从 CMU 天才少年到多模态创业先行者

发布时间: 2024-06-13 15:46:41 | 作者: 火狐棋牌|

  CMU LTI (卡内基梅隆大学语言技术研究所)每年在全世界内只有十个左右的博士录取名额,其中的华人学者凤毛麟角。本次以 OpenAI 发布 ChatGPT 为标志掀起的人工智能浪潮,CMU 也在各大主流 AI 公司中扮演了技术核心。

  这群 CMU 中的华人学者,在中西争夺人工智能高地的竞争中,归国人才显得尤其弥足珍贵。杨植麟是其中之一,在国内创办月之暗面,迅速上升为中国估值最高的大模型公司之一。而比杨植麟大一届的赵天成,也是从 CMU 毕业回国的青年创业者。

  赵天成可以称得上「AI 名门正派」,本科就读于 UCLA(加利福尼亚大学洛杉矶分校),以全院第一的成绩获 2014 级工程学院杰出毕业生。随后在 CMU LTI 硕博连读,主导师为 Maxine Eskenazi ,并和 Alan Black、 LP Morency 、 William W Cohen 多次合作。四年期间,赵天成主要研究用生成式模型做对话的核心问题,累计发表了 20 余篇顶会论文,仅仅用了 4 年半就完成了常常要 6-7 年完成的博士学业。

  作为一名创二代,赵天成选择在硅谷短暂工作后回国,接手其父亲赵凡创办的联汇科技。在这家拥有 20 年 2B 经验的企业中,通过多模态大模型赋能已有的、新开拓的 B 端大客户,从一开始在商业路径上就无比清晰。而目前很多AI公司在商业路径、变现上仍然缺乏战略形成鲜明对比。

  相较国内很多大模型公司,赵天成从回国的第一天起就坚定的走多模态大模型方向,多模态能力的重要性在近期OpenAI 发布的 GPT-4O 上得以验证。这在某种程度上预示着,要真正的完成大模型落地应用,不能只有文本语言,加入多模态能力是大模型竞争的大势所趋,也是距离 AGI 更近的一步。

  但其实,在 2023 年 11 月 6 日 GPT-4V 发布之前,业内更多地将目光放在大语言模型之上,多模态模型创业是少有人走的路。但联汇科技在 2021 年前后即开始推进多模态的研发工作,以模型的理解能力而非生成能力为切入口,能够说是国内多模态模型勇于探索商业模式的公司中的先行者。

  「科技赛道投资要追求非共识的正确判断,这需要极高的行业认知和判断。」投资联汇科技的前海母基金高级行业研究员马骏对 AI 科技评论说道。做理解方向的多模态模型,这在市场上是比较稀缺的,联汇科技在投资人眼中也就成为了识。

  依托于过去老业务的基础,联汇科技的 AI 业务增长有着明显的优势。虽然在大众的认知和传播度上不及Pika、Sora 等生成方向的多模态模型,但是联汇科技已经和广电媒体、运营商、国家电网等涉及民生的大 B 企业合作,用「B2B2C」的方式更好地做商业化,营收已经跑赢大多数大模型公司。

  谈到如何能在当下的环境中把多模态模型的 2B 商业化做到这么多营收,赵天成将其归结为是一个「在约束条件下最大化商业化成果」的优化问题。「底层技术要领先市场一步甚至两、三步,商业化产品,基本上会保持领先 0.5 步的方式去做。」

  以下是 AI 科技评论与联汇科技 CEO & 首席科学家赵天成、前海母基金高级行业研究员马骏的对话实录:

  AI 科技评论:你本科毕业于 UCLA,之后在 CMU LTI 硕博连读,这期间主要做了哪些研究?

  赵天成:我是 2010 年到 2014 年读本科,期间跟随 UCLA 语音实验室创始人 Abeer Alwan 教授学习语音处理相关研究。毕业的时候申请学校,她强烈推荐我去 CMU,因为 CMU 的AI和自然语言处理方面几乎是最强的。

  在 CMU 我的研究方向就是基于预训练的端到端的生成式模型,并且应用于人机对话系统,本质就是现在的 ChatGPT 的前身。我主要的研究内容也基本上覆盖了生成式对话系统的几大方向:

  第一个方向是模型架构,整个生成式模型的模型架构的研究最早是通过RNN,之后引入隐变量学习,然后在此基础架构升级为Transformer;

  AI 科技评论:当时的生成式对话与现在的 ChatGPT 相比,有什么区别?

  赵天成:其实核心原理都差不多,都是自回归模型预训练。最主要的不同之处在于 scale(量级)上。比如,以前还没有百亿级的Transformer,那时用的是亿级的 RNN;以前的训练数据可能是几千万个 Token,现在变成了几万亿个Token;以前的卡差不多是 8 块 3090,现在是千块 A100。

  AI 科技评论:在学习的过程中,哪个重要的节点让你的研究产生变化或者有很大的突破?

  刚到 CMU 的时候,导师 Maxine Eskenazi 和 Alan Black 他们做了当时全球最早的实用化对话系统「Let‘s Go」,可以在一定程度上完成打电话询问公交车信息和订票的功能,上世纪 90 年代到 21 世纪之初,大部分的对话类研究都是基于这个系统做的,但这个系统全部是靠专家规则拼出来的,是一群CMU 博士花了几年时间才做出来,而且和真正的应用相比还有很大的距离,并且我们意识到这个系统智能上限很低。

  2017 年,AlphaGo 出来,我们大家都认为端到端学习肯定能改变以前专家系统拼凑的方式,能够最终靠一套完整的学习机制去实现真正的智能体,于是就把整个 Let’s Go 系统整体转成了纯生成式的,把专家系统用生成式模型做了替换。做这件事的初衷是觉得生成式模型的上限更高,想要做一些未来五年之后才能爆发的技术,而不是去做成熟的技术。

  赵天成:会有合作交流,杨植麟比我小一届,我跟杨植麟的导师 William W Cohen合作得也比较多。

  赵天成:Maxine Eskenazi 是我的主导师,在对话和人机交互方向很有经验,特别是在如何做 research 方面对我的影响非常大,教会我如何去做具有引领性工作的 research。在硕士期间, Alan Black 是 co-advisor,但之后他的研究方向更偏语音合成,而我会偏深度学习NLP 更多。

  除此之外,我博士期间的另一位合作导师 LP Morency。他在多模态领域是全球 TOP3,本身就是最早做多模态的顶级专家。他教会了我什么是多模态模型,特别是在视觉与语言融合这一块给了我很多指导。读博期间,甚至现在在联汇的工作大多数都还是在当时研究的大框架上去做延展。雷峰网(公众号:雷峰网)雷峰网雷峰网

  还有 William W Cohen(杨植麟的博士导师),他是谷歌的首席科学家,我做对话系统和现在的多模态模型,很关键的一个问题是如何更好地把 knowledge base(知识库)构建起来,这部分他给我很多指导。

  AI 科技评论:除了研究履历外,还有哪一些原因促使你在回国之时选择多模态模型的方向创业?

  赵天成:当然。这也跟我们本身的商业基础有关。联汇科技是从媒体技术与服务起家的科技公司,很大的一块业务是服务于中央台、浙广集团这样的广电媒体,并做到了行业第一,行业天然存在很多的多媒体数据。这些业务对我们初期做 PMF 有着非常大的帮助。

  另外一个因素是在客户接受度层面,这些中央地方的广电媒体对故障零容忍,对新鲜事物,比如AI技术的接受需要一个过程,而联汇科技凭借过往过硬的技术实力,充分得到了这些“要求苛刻”的客户的信任,得以使公司的多模态大模型能够迅速商业化。

  AI 科技评论:做好这个决定之后,在一个 20 年2B 经验的老公司推 AI 新业务的打法是怎样的?

  赵天成:首先把公司目标进行了重新的定义。从过去的「让信息传播推动创新」改变成了「以智能去推动创新」,大家以 all in AI 的态度去做整体的升级改造。

  从整个步调来看,一开始是从做理论研究到早期的基础设施建设,慢慢地一步一步到应用产品。另一方面,几年的时间下来,团队也进行了大升级,更新成了更加年轻化的团队。构建了以 AI 为核心,在几个应用点去落地产品这样一个两层的布局。

  从产品化、商业化来看,还是要稳扎稳打的。(我们)重点投资了大模型基础设施建设,完善了大模型落地的工具平台,然后到后面一步一步去做应用层的开发。

  商业化的过程也是先以存量市场应用升级为第一步,然后慢慢去打造 AI 原生应用作为第二步,实现“两步走”的策略。

  AI 科技评论:马博士,从投资机构的角度,怎么样看待联汇在那个时间节点选择走的偏理解的多模态模型之路?

  马骏:我认为这是一种识做法。2022 年,GPT4V 还没有发布,并没有很多人做多模态创业,市面上更多是在关注大语言模型,看到联汇的时候会感受到差异化和眼前一亮。

  从商业化的角度去考虑,生成式模型逃不开的制约因素就是幻觉问题。传统的生成式模型的准确性偏差是一些商业化场景所不能容忍的,那么这样一个时间段如果能不过分强调生成,而是强调理解,就可以很巧妙地避开幻觉问题,算是扬长避短吧。

  AI 科技评论:联汇科技的赵凡总有着 20 年 2B 业务的经验,赵天成博士又有顶尖科研经历,你怎么样看待这种「互联网老兵+天才少年」的创业组合?

  马骏:第一就是在整个产品和研发的路径上,赵凡总对产品的把控都是很贴近客户的真实需求的,真的是能在场景里面能处理问题的,所以能保证技术、场景、产品三者达到很好的匹配,这也就从另一方面代表着整体的试错成本会比较低,这是我们很看重的一点。

  第二,联汇科技作为一家大模型公司,工具链做得非常齐全。能够正常的看到,其实大模型想要在场景上落地,它不单单只是模型,还包括如何去做推理的加速,或者和硬件绑定所需的智能体的工具链。这一点在最早接触的时候,市面上没有太多公司意识到如何去做一家全面的、端到端落地的公司。

  所以这种老少搭配,第一在场景上不会出问题,第二就是他们明白如何做一家全面的公司,而不是单纯的技术团队,只在单点上做突破。因我们理解做单点突破,在现在的市场环境上是远远不足的,你的壁垒或者护城河是无法靠单点来维持的,开源模型天天在卷,仅靠模型来做一个壁垒是不够的。

  一类是大模型公司直接去做业务,他们的问题是场景还不聚焦,他们更希望用标准化的产品服务各种场景,而对于业务理解的深度不够,可能会引起客户不满意;

  第二类是集成商,他们拿着开源模型改一改,倒是可以交付,但无法深入,也不是长久之计。

  我们能够正常的看到各个行业的企业数字化进程是不可逆的,这样一个时间段陪伴客户成长反而是更重要的,抛开技术的壁垒,联汇科技一直在陪伴客户成长,这方面他们很有经验。

  赵天成:从模型层面,欧姆大模型是国内最早发布的多模态模型系统,最大的突破在于对视频的理解能力增强。过去的 CV 更多的是单图理解,但联汇颠覆了传统单图理解的局限。

  从智能体的角度来看,目前联汇推出的智能体,都是以自研框架实现的,并且在解决智能体端到端优化的问题上,开发了独特的算法。

  除了技术迭代之外,联汇今年有多个智能体应用在运营商、电力、媒体等行业,实现了规模化的商业落地应用。后续我们也将根据实际用户反馈去逐步优化系统,这很有大的价值,使双方能迅速形成“数据飞轮”。

  AI 科技评论:吴恩达在最近的演讲中呼吁大家多关注智能体技术,你怎么样看待智能体技术的发展方向?

  赵天成:我非常认同吴恩达所提到的几个点,智能体未来有四个比较有价值的方向:

  第三,智能体的规划能力,它不再局限于单轮的决策,而能自己把整个行动路线设想出来;

  第四,多智能体的协同,即面对复杂任务时,让多个角色的智能体协同起来完成任务。

  综合来讲,我认为大模型越来越像底层的一个算子,就像一个 CPU 一样,但真正颠覆我们日常生活的是 Windows 这一操作系统。一个好的智能体框架可以让 GPT-3.5 的效果大幅度超过 GPT-4。把智能体用好之后,可以让一个相对来说没那么强的模型反而能够超过目前最强的模型。同样的技术用在 GPT 4 上的话,那它可能就变得更强了。

  AI 科技评论:半年多的时间以来,很多大模型公司都在说做 Agent,目前 Agent 发展处于什么阶段?

  赵天成:非常初期的阶段。现在很多比较热的智能体技术,或者所谓的框架,其实很多时候都是换汤不换药的。

  10 年前,我们叫任务驱动对话系统,或者再往后走,他们可能叫 Conversational AI,他们本质来说完全是一个东西,只是换了一个名字而已。包括现在比较火的 RAG,在 2017 年左右就有很多人在做类似的东西。他们都是仅仅把大模型和外部知识库做了连接,然后去做应用,后续 agent 技术还有很大的发展空间。。

  AI 科技评论:马博士,2024年或者之后,你会着重去看智能体相关的项目吗?

  马骏:是的,从智能体出发,看一些AI公司的发展历史,引起了我们的一个反思:比如像 AI 四小龙这样的公司,前期的时候在模型能力、技术上可能会比较领先,但是经过七年左右的变化,等到新的底层技术出现的时候反过来再看,会发现他们前几年在模型算法上的壁垒可能就没那么深了。也就是说单纯靠模型算法无法为企业构筑足够高的壁垒。

  那么,企业怎么样才可以持续把自己的壁垒搭建得坚实起来?设想在五年之后,行业内又出现了一个全新的模型架构,那现在这一波企业应该怎么办?企业该怎么样保持自己的壁垒?又该如何转型?

  基于这一点的考虑,我觉得智能体较为重要,它更多是偏向于对业务场景中一个系统的搭建,而不是一个单点模型的突破。因为底层的模型可以迭代,但是框架部分是比较确定的。所以我们大家都认为,像这种框架式的智能体,反而在未来是可以活得比较长的。而且在企业真正到了面临转型期的时候,拥有这方面的壁垒反而比单纯只是做模型的壁垒要更深。

  赵天成:一方面我们大家可以把人类不想做的一系列繁琐的任务实现自动化,实现从 copilot 到 autopilot ,去重构之前信息化时代的系统,诸如 Office 或 ERP 。在 AI 时代,我觉得 AI 原生应用很有可能会颠覆这些传统的服务和模式。

  另一个方面,过去大量的行业知识,都是存储在个人的大脑里面,但目前有可能通过 AI 把所有知识以行业为单位做沉淀,比如在电力领域或者媒体领域,把很多的老师傅的知识吸收进一个模型中,打造一个不断进化的 AI 行业专家。

  赵天成:2B 还是做 2C,是分阶段的,我们的战略是先 2B 夯实公司底座,再 2C 拓展公司上升空间。

  具体来说, 2C 业务对成本比较敏感,而当前阶段,大模型的推理成本还比较高,而且这一状况目前很难改变,除非再过几年算力资源价格发生了变化,可能会减少相关成本;同时 2C 商业化变现路径还不清晰;再次,2C 行业竞争是扁平化、白热化的。

  我们认为要打好公司的 2B 底座,修炼好内功,积攒好经验、人才、必要的资金,以一个更加良性的模式去参与 2C 的竞争,有可能初期是通过爆款细致划分领域的硬件+多模态大模型的形式切入。所以现在我们是以 2B 为主,大 B 相对来说有能力去承担数字化升级的算力成本。

  在目前阶段虽然还没有很好的方法做大规模 2C 业务,但是我们通过跟运营商合作,用「B2B2C」的方式做 2C 业务,培养 2C 的商业sense,为将来正式切入 2C 市场积累经验、人才。比如跟中国移动合作,通过宽带+AI套餐的方式去服务广大的 C 端客户,这样更适合当下的现状。

  马骏:目前看到的2B 业务有两类,第一类就是来什么客户去接什么客户,是一种高度定制化业务,另一类就是有很强的行业属性,摸清一个行业客户的共性需求,然后用标准固化的产品去服务这个行业的客户,换个词可能叫 2P(Platform)更合适。

  联汇更加倾向于后者。只有扎根于某个行业,然后这个把这个行业做透,才能形成比较好的标准化,而不是刻意为了前期做收入,就什么客户都接。这里有一个很好的印证就是,联汇科技的毛利率水平很高,这也就反映出来它输出的更多还是标准化产品。

  AI 科技评论:联汇科技是如何在当下其他家连 PMF 都没做好的情况下就能做到很高的商业化营收?

  更重要的是,要把整体的节奏把握好。一方面我们要对今后的重点技术方向进行提前投入,保证在底层技术领域领先市场一步甚至两、三步,但是对于商业化产品,我们基本上会保持领先 0.5 步,而不会把步子迈得太大。因为在市场还没有成熟的时候,去硬推一个可能两三年之后才会成熟的产品,非常有可能会成为市场验证的牺牲品。因此,我们绝大多数都是按照技术领先又产品落地的方式去做。

  AI 科技评论:马博士,从投资人的角度,你会更加看好 2B 还是 2C 的商业路线?

  马骏:这个可能要分时间维度,短期会青睐 2B,长期对于 2C 还是看好的,一个 2C 产品首先还是要有极致的产品力,其次成本也很重要,如果短期内未达到成本拐点的线C 产品付钱,会叫好不叫卖。

  假设说,现在要从一个没什么差异化的 2C 的聊天机器人上收费,那有很大的可能性有些人会选择直接用 OpenAI ,因为它性能更强,且价格也不算太贵。除非 2C 产品有非常差异化的产品力,让用户觉得好用,要不然的话就是成本足够低,付很低的费用甚至是不收费。

  一条路像 Gemini,以语言为核心,在此基础上把感知层面的音频、视频、图像接进去;

  另一条路是 Sora 的路线,以视频生成和渲染为主,目的是能够生成出主体一致、画面高清逼真的视频。

  按照这样的方式来划分,国外的 Pika、Runway,国内的生数科技、Hidream、爱诗科技等都是走的类似 Sora 的多模态生成路线。联汇科技会更接近于 Gemini ,因为我们的目光还是更多放在智能体上,更关注模型的推理思考和 planning 能力,这种能力的重点和目的并非把一幅画逼真地画出来。

  马骏:Sora 为代表的视频生成公司,目前我还没看到特别好的商业化案例。

  AI 生成的视频是否有商业经济价值,这个暂时不好判断。以影视业为例,多模态生成模型服务于B端客户,需要能不能把生成的内容植入到原有的业务流程里,或者植入到他原来的工作软件里。我自己觉得,这可能是短期内比较有价值的事情。

  我们也看到, 生成视频相关的C 端产品具有很强的传播力,我自己觉得它还是会兑现出很大的价值,就能很快做出一些爆款。

  赵天成:联汇科技会比较接近硅谷的一个企业叫 Cohere。Cohere 在做的事情是给欧美的大规模的公司提供完整的大模型底座和以它为基础的、降本增效的智能体应用。

  在做多模态模型创业的过程中,我们会比较关注整个商业化 ROI 的情况是怎样的?可能 OpenAI 做 AGI,会不计任何成本的、每年烧几千个亿去做 ,而国内不行。我们应该做的是在目前的限定条件下,最大化大模型技术的商业化 ROI,那限定条件可能包括客户场景、当前国内硬件条件等,而从公司已商业化落地的项目看,这一限定条件下的最大化大模型技术路线收到了客户的一致好评。

  AI 科技评论:Scaling Law 可能是实现 AGI 的路径之一。当 OpenAI 在去追求 10 万亿或者更大参数模型的时候,其他大模型公司的竞争力在哪?

  赵天成:虽然把参数堆上去没问题,数值堆得越高效果越好。但其实在 B 端场景下面,即便线 万亿的模型,也不会有任何一个 B 端客户会愿意为它买单,因没有客户能够承担它的算力成本。

  在创业过程中,除了以纯粹以研究者的想法追求模型性能外,我们也会把整个公司的运营当成一个「在约束条件下最大化商业成果」的一个优化问题。在当前商业化过程中,我们把产品的竞争力和服务做到最好,把模型的效率做到最高,并随着未来硬件环境的提升逐步进步,每个阶段我们都能够给大家提供性价比最高的大模型和智能体产品,我觉得这反而是更具竞争力的。

  第一是数据高效,我们自己提出了一种高密度的数据训练方式,可以将更多的知识浓缩在相对更少的数据上面,用高效的算力去达到更好的效果。

  第二是功能高效,以多模态原生训练作为核心,如果某个场景只需要有视频的能力,那我们适配的多模态模型会原生地把它预训练在模型里面,给客户提供他们想要的功能,而不会把算力资源浪费在客户并不关心的功能上面。

  第三是推理高效,推理效率和成本是客户使用的过程中最关心的。推理加速、模型量化、以更小的参数量获得更大参数量才可以做到的效果,这些都是我们研发的重点。

  马骏:变现和卷参数是可以解耦的。从追求天花板的角度来说的话,卷参数的意义是对标到 OpenAI,这是很有想象力的事情的。但是从实际运营角度,成本也是一定要考虑的主要的因素,为什么大家都开始做 MoE,就是考虑成本和落地。

  AI 科技评论:过去的二十年,移动互联网是最大的一波红利,现在大家也认为这波人工智能浪潮和移动互联网有着一样巨大的机会,你怎么看?

  赵天成:是的,随着大模型的出现,人工智能进入了一个新的阶段,可以说跨过了一个拐点,能够真正的完成普及应用了,不管是日常生活还是生产制造领域都可以用AI来赋能。

  而且,现在不管是中国还是美国都有明显的生产制造业的回流趋势,大家对制造业逐渐重视,所以,怎么样让大模型或者 AI 技术更好地赋能传统行业,很可能是个很大的机会。无论是能源、制造、生产,还是基础科学研究, AI 有可能真正催生一些不一样的东西。

  AI 科技评论:也就是说这一波 AI 更有机会作用于一些制造业或技术行业?

  赵天成:现在大家都在问,AI 到底能干吗?如果说移动网络最赚钱的是推广告,那么在这一波 AI 又会有哪些新的爆发点?我认为这次的大模型最大的特点是让机器真正具有了逻辑思考能力,譬如它可能实现专业设备的自动化运维,甚至是发现更好的能源传输模式等,实际做到无人化、智能化,在这样一些方面可能会产生一些以前想不到的东西,这样的话,这一波 AI 会对制造业和技术行业带来重大变革,因此也有人说,这次AI浪潮是第四次工业革命。

  AI 科技评论:当下的环境对创业者并不友好,有什么可改进的方式,怎么给创业者创造一个好的投资环境?

  马骏:AI 的 2C 应用肯定是最大的机会,它是离用户最近的。但是这种应用有多方面原因吧,第一上市的可能性可能不大,第二它的生命周期可能会变短,大家会迅速发现这个方向赚钱,然后一堆人挤进来了,然后开始内卷了。为了应对这一情况,在大多数情况下要更灵活地投资的方式。

  因为证券交易市场的退出周期还是太长了。那有没有可能直接用类似于分红的形式去投资?回归到做生意的逻辑,比如有人做 AI 应用,那么你要多少钱我就投你多少钱,你赚到钱后,我们大家按比例分,这样退出周期也快,并且可投的 AI 类型的公司也多。

  在北美,因为有一个比较好的并购渠道,(所以投资风险没那么高)但是在国内你没这么好的渠道,所以我自己觉得,目前怎么去退出是很大的问题。从投资方式的识角度来讲,也会诞生一些全新的机会,或者全新的投资模式,也希望资本界和这个产业界去共同做一些创新性的突破。

返回列表
+ 微信号:wzh47381484