让星火大模型赶超ChatGPT,科大讯飞做到了吗?

在大模型上的投入和加速,对科大讯飞而言有动力也有压力。

文|连线Insight 王慧莹 

编辑|子夜 

国产大模型追上ChatGPT要多久?

“百模大战”伊始,这个问题的答案就成为国产大模型厂商的一种执念。

五个月前,国内市场正掀起一场大模型的热潮,科大讯飞带着星火大模型跑步入场,立下了全面对标ChatGPT的“军令状”。

“10月24日科大讯飞全球开发者大会期间,星火有望能够全面对标ChatGPT:在中文上要超越ChatGPT,在英文上要达到跟它相当的水平”。彼时,科大讯飞董事长刘庆峰提出这个目标。 

尽管市场将信将疑,但科大讯飞给出了一张时间表,并在前天给出了答案。

10月24日,科大讯飞召开全球1024开发者节开幕,并发布了“讯飞星火”认知大模型V3.0。据刘庆峰介绍,该大模型已全面对标ChatGPT(GPT3.5),英文能力相当,中文能力已实现超越。

图源科大讯飞微信公众号 

与此同时,科大讯飞还发布了一系列应用场景。医疗、教育、编程、汽车等多个垂类赛道都有星火大模型的身影。刘庆峰提到,“大模型首先要能够在工业和科研领域造福人类,这才是我们真正解决社会刚需的地方。”

事实上,过去五个月,科大讯飞已经完成了对星火大模型的多次升级。6月9日,星火大模型V1.5发布,开放式问答、多轮对话及数学能力升级;8月15日,星火大模型升级至V2.0,突破代码能力、多模态交互再升级。

依靠算力、技术的支撑,星火大模型升级迭代速度的确够快。不过,当同行业都在用力奔跑时,科大讯飞也必须要面临技术上和落地场景的考验。

更重要的是,过去几年,业绩增速放缓、净利润下跌,科大讯飞需要一个新的故事来证明自己,并挽回资本市场信心。作为“A股第一家以人工智能为主业上市的公司 ”,抓住大模型的意义对于科大讯飞来说不亚于寻找一条新的增长曲线。

当然,大模型行业的投入并非一朝一夕,科大讯飞还在继续投入,刘庆峰又提出了一个新目标——2024年上半年,星火大模型要实现对标GPT-4,新的时间表的提出,也意味着科大讯飞接下来依然要全情投入,这对科大讯飞来说,有动力也有压力。

01 星火大模型,跑到了哪一步? 

“我们如期兑现了自己给大家的时刻表。”

10月24日,科大讯飞全球开发者大会上,科大讯飞董事长刘庆峰激动地说出这句话,同时发布了“讯飞星火”认知大模型V3.0。

这对于科大讯飞来说确实不容易。从发布时间上看,随着百度文心一言、阿里通义千问的推出,今年5月份科大讯飞的星火大模型姗姗来迟,并不具备先发优势。

不过,和别家不同的是,从一开始科大讯飞就给出了明确的升级版本时间表。

彼时,科大讯飞方面表示,在2023年内预计还会进行三次升级,分批次增强数学能力、补足代码能力,希望最终将在10月24日全球开发者大会期间,能够全面对标ChatGPT,在中文上要超越ChatGPT,英文上要达到和它相当的水平。

科大讯飞研究院院长刘聪在接受媒体群访时谈及原因,“定这个东西肯定不是拍脑袋,之所以能立这个 flag,是因为既有技术逻辑,也有我们产品和场景落地的逻辑。”

从科大讯飞宣布的进展来看,经历两次迭代,讯飞星火大模型先后突破开放式问答、代码能力,并升级了多轮对话能力、多模态交互能力。此次,星火V3.0在文本生成、语言理解、知识问答、逻辑推理、数学能力、代码能力和多模态能力7大方面都有了显著的提升。

其中,星火V3.0最受关注的新功能莫过于虚拟人格功能。在应用过程中,用户可以通过“友伴”从性格、情绪、表达风格等方面设定AI助手的基本人设,且可以导入特定的知识、相关对话记录形成个性化的记忆。

据刘庆峰介绍,科大讯飞根据《通用认知智能大模型评测体系》构建测试集,采用盲测进行测试,结果显示:讯飞星火V3.0的中文能力客观评测已超越ChatGPT。

可以看到,自从入科大讯飞入局以来,ChatGPT就被科大讯飞反复提及,并对标超越。如今,要讨论星火大模型是否超过了ChatGPT,一组报告或许可以参考。

根据国务院发展中心国研经济研究院的横评报告,星火大模型综合能力已超越ChatGPT,实现国内领先,国际一流,且在教育、医疗和法律行业表现尤为突出。

此外,根据OpenAI在官网发布的英文任务测试集,在10月16日至20日的测试中,星火V3.0的英文能力对标ChatGPT48项任务结果相当,二者得分分别为85.1%(星火V3.0)和84.3%。

事实上,星火V3.0是在星火V2.0基础上的升级,尤其是在数学能力和代码能力等上有了明显的“进化”,也让星火V3.0赶超ChatGPT3.5成为可能。

在发布会上,刘庆峰喊出了新一步的目标,预计在2024年上半年将会发布星火认知大模型V4.0,届时将会对标GPT4。

不过,尽管科大讯飞提到,星火V3.0综合能力已经超过ChatGPT3.5,但国产大模型仍在一些方面与ChatGPT存在差距,这也增加了星火大模型4.0对标ChatGPT4的难度。

“中国现有的大模型根基实力,与GPT-4仍有差距。”刘庆峰坦言,在复杂知识推理、小样本快速学习、超长文本处理以及跨模态的统一理解上,国产模型还有不小的差距。

“虽然 flag 立在那,但是客观来说完成得并没有那么轻松。每次快开发布会时,都处于紧急上线的状态,实际上这个目标还是有挑战性的。然而,有这样一个团队存在,再加上我们之前对 AI 的积累和理解,我们对达到 GPT4 这个水平非常有信心。唯一令人担心的是我们需要花费多少时间来实现这个目标。”科大讯飞研究院院长刘聪如是说道。

02 为大模型投入巨大,也需要大模型拉升信心

“遥遥领先,如期而至”,这是发布会上科大讯飞董事长刘庆峰多次提到的字眼。

看似笃定的话语中,其实透露着刘庆峰和科大讯飞的焦虑。尽管科大讯飞在AI领域有着多年积累,这场国产大模型军备竞赛依旧打得火热,科大讯飞想要一直对标并超越ChatGPT,难度不小。

众所周知,大模型是“大数据+大算力+强算法”结合的产物,科技企业的技术底座决定了其AI大模型的应用价值。

对于星火大模型而言,科大讯飞很早就确认了“1+N+X”的生态布局。“1”是核心的底座,“N”是讯飞自有赛道的自有产品,“X”是生态。它们之间的关联是,底座本身的提升会带来“N”的提升,也带来“X”的提升。

这样的思路之下,今年8月中旬,科大讯飞联合华为推出了大模型算力硬件 “星火一体机”。一体机的特点是可以私有化部署大模型,让所有企业都可以在国产自主创新平台上私有化部署大模型。

1个月后的华为全联接大会上,刘庆峰在演讲中透露了与华为的进一步合作。而在10月24日,科大讯飞联合华为正式推出基于昇腾生态的自主创新大模型算力底座“飞星一号”平台,支持讯飞星火大模型在对标GPT-4之路上,实现更大规模的训练。

自5月6日星火发布以来,讯飞开放平台新增143.4万开发者团队,同比增幅331%,其中新增大模型开发者17.8万。大模型也显著降低了开发者门槛,在讯飞星火上,已有1.5万助手开发者,开发超2.9万个助手应用。

技术的升级,离不开真金白银的投入,更何况是烧钱的大模型行业。据新智元报道,大模型的训练及运行成本极高,GPT-4一次训练成本估计要6300万美元,且由于每次提问都需要进行大量新的计算,难以形成标准软件的规律效益,企业投入成本是个不小挑战。

9月,知名投资机构红杉资本的David Cahn发布文章称,如今的AI产业还需1250亿美元的营收,才能挣回为了大模型在GPU、数据中心、能源等成本上的投入。但目前AI在应用层面上的创新与商业化前景,与1250亿美元的阈值还有巨大的分歧。

巨大的投入成本,在科大讯飞身上也有体现。

科大讯飞2023年三季度财报显示,2023年第三季度公司实现营业收入47.72亿元,同比增长2.89%;归母净利润为2579.01万元,同比下滑81.86%;扣非后归母净利润由盈转亏,为-2018.87万元,同比降113.65%。

从前三季度情况看,科大讯飞实现营业收入126.14亿元,同比略微下滑0.37%;归属于上市公司股东的净利润9936.21万元,同比下滑76%。

对于财报的表现,科大讯飞给出的理由为,“在通用人工智能认知大模型等方面坚定投入”。今年前三季度,科大讯飞在研发方面支出费用达到24.98亿,同比增长7.19%。

成本居高不下,继续投入却有必要,这种情况下,更需要尽快实现商业化。因此,当厂商们在比拼技术时,拼场景、拼应用也在同步进行。

民生证券在研报中指出,“单纯发布一个大模型的门槛没有市场想象中的那么高”,难的是“有一个能持续迭代,性能不断提升的优质大模型”,优质的、独特的数据价值更大。

事实上,大模型的浪潮,科大讯飞必须要抓住。这不仅能给科大讯飞带来新的增长,更重要的是通过大模型挽回资本市场的信心。

在发布星火V3.0的当天,资本市场给科大讯飞浇了一盆冷水。10月24日,科大讯飞午后跳水持续走低,截至收盘,科大讯飞以跌停价46.70元报收。截至发稿,科大讯飞市值为1054.33亿元。

总的来看,技术层面科大讯飞已然拿到了AI大模型的门票,最终能否在行业中抢占新的先机,还要看具体的商业落地表现。

03 深耕垂类,更有希望?

科大讯飞是一家典型的技术公司。1999年,科大讯飞以智能语音技术起家,经过二十多年的发展,科大讯飞在语音合成、语音识别、自然语言处理等核心技术领域处于国际领先水平。

但在AI大模型领域,技术是一回事,商业落地又是另一回事。基于这样的思考,“技术顶天,应用落地”是科大讯飞在发展大模型过程中始终遵循的两项准则,在研发技术的同时,思考场景落地与商业化。

一个业内的共识是,“百模大战”至今,国产大模型已从“卷参数”进入了“卷应用”。红衫资本在近期的一份研究报告中也指出,当下的大模型竞逐已进入第二阶段,比起技术,更强调产品体验与应用形态。

简而言之,大模型跑得快的标准正变成好用和实用。

放眼整个行业,B端仍是大模型商业化落地的重点,各行各业对大模型的需求很强烈,大家都想借助大模型的AI能力,助力企业的数智化转型。

具体而言,发布会上,科大讯飞发布了星火V3.0的能力集成与部署进一系列赋能行业与场景的商业化产品中,如全新升级的iFlyCode2.0(智能编程助手),与中科院文献情报中心联合打造的星火科研助手、教育领域的AI心理伙伴、医疗领域的晓医助手等。

此外,最新发布的讯飞星火V3.0将赋能智能座舱全面升级,面向多样化的汽车使用场景,科大讯飞推出星火座舱OS、星火汽车APP和星火座舱域控,支持实时检索,可以实现插件化调度,并集成多模态生成的能力,为合作伙伴提供自主可控、组件化、更开放的座舱解决方案。

同时,科大讯飞还面向金融、汽车、运营商、工业、住建、物业、法律、科研文献、传媒、政务、文旅、水利等12个领域发布了垂直行业大模型。

一个明显的趋势是,大模型C端市场需求增量明显,这给了B端和C端两条腿走路的科大讯飞更多大模型落地的机会。

发布会上,星火V3.0推出了多项应用大模型的C端产品,如具备英语AI答疑辅学的讯飞AI学习机、面向未来的人形机器人等。

值得关注的是,教育一直是科大讯飞的核心产品线。此次发布的AI心理咨询师“小星”与以往发布的教育产品不同,更加关注学生心理健康。“小星”在星火大模型的加持下,能够通过视频、语音、文字等多模态方式与青少年展开类人自由对话,理解青少年的情绪情感,表达接纳与共情,促进青少年自我觉察,并提供个性化行动建议。

图源科大讯飞微信公众号 

不过,无论是企业和开发者,对于大模型的和使用方式有不同的差异。比起主打普惠使用的“全面型”能力,大模型要在千行百业应用起来,考验的是更快速精准的算力,和更具特色化的功能。想让大模型真正用起来,需要国产大模型厂商找到高频刚需的应用场景,打造杀手级应用。

刘庆峰在会上透露,自讯飞星火9月5日对公众开放以来,当前已有1200万用户。升级到V3.0后,讯飞星火在七大能力——文本生成、语言理解、知识问答、逻辑推理、数学能力、代码能力以及多模态上有了持续的提升。

谈及大模型的商业回报周期,刘庆峰表示,“至于商业收益方面,我认为明年将会显现出明显的效果。然而,我们还有很多工作要做,不能说已经达到了一个稳定状态,还需要时间来完善细节并逐步训练。”

大模型掀起的热潮过去了大半年,经历了一轮轮军备竞赛之后,大模型已经告别了最初的技术比拼,玩家们开始冷静思考下半场的决胜点。或许,谁能率先将大模型技术与更多产业场景结合,训练更垂直化的能力,谁就能抢到更多蛋糕。

声明:本文内容仅代表该投稿文章作者观点,不代表浑水号立场。 未经授权不得随意转载,浑水号保留追究相应责任的权利