一台多足行走机器人在空地上迈着富有节奏的步伐,一台跳舞机器人起舞之后,又单独展示了武术表演;一台可以书写的智能交互机械臂,一笔一划地用毛笔写下“一起向未来”的字样;将身份卡片贴上“数字哨点”的识别器,人员身份、健康宝状态、核酸状态等信息一览无余……
“用智慧科技改变生活”——在声智科技的企业展厅内,处处能够体会到这句话的魅力,而它正是这家企业的愿景。
诞生于2016年5月的声智科技,是一家典型的科学家创业企业。创始人兼董事长陈孝良,以博士毕业于中国科学院声学研究所,亦曾担任中科院声学研究所副研究员和信息化办公室主任;声智科技的创始团队,亦几乎全部来自中国科学院声学研究所。
与外界通常不那么看好的“科学家创业”相比,声智科技走出了自己的发展曲线。2019年,成立仅四年的声智科技获评工信部第二批专精特新“小巨人”企业,可谓异常年轻。
“特别有成就感。”在接受21世纪经济报道记者独家专访时,谈及公司的发展,声智科技联合创始人兼首席知识官常乐感慨道。在她看来,声智科技之所以能够快速成长,一方面得益于企业长期对自主研发能力的注重,另一方面则取决于核心技术在重点场景的落地。
从单一技术到多模态融合
2016年3月,随着人工智能AlphaGo围棋对弈战胜李世石,全球人工智能行业迎来了一波新的高潮。
围棋长久以来被视为棋牌运动中“人类智慧的最终堡垒”,而AlphaGo的胜利,让社会大众重新认识到了人工智能发展的潜力和前景。此后,无论是技术精英还是普通百姓、企业精英抑或国家高层,都将目光投向了人工智能、深度学习、自动驾驶等一系列前沿技术。
嗅觉敏锐的资本,也蜂拥而至。《乌镇指数:全球人工智能发展报告2016》显示,中国人工智能投资在2016年上半年就达到了月6亿美元的规模,其中第2季度更是达到了创纪录的4.70亿美元。
声智科技正是诞生于这样的热烈氛围之中。不过,与通常的科学家或学者创业有所不同的是,声智科技的创始团队自创业之初便下定了极大决心。“许多科学院所的学者创业,大多会保留在院所的身份,但我们是完全脱离了原来的身份。”常乐回忆称,“当你发现自己没有退路的时候,做事情也会更加专注。”
彼时,在人工智能大潮中,声智科技创始团队结合自身在声学所的积累,以智能语音作为未来人机交互的切入点。“但我们也发现,世界不仅是声音或图像的单一维度,而是多感官融合的场景,声光电热力磁等都会成为人机交互的入口。未来所需要的真正的服务体验,不光是单一技术维度的领先与突破,更需要一个融合的状态。”常乐表示。
这也构成了声智科技从语音角度向多技能、多模态融合角度的成长路径转变。2018年,声智科技推出SoundAI Azero(壹元人工智能开发框架),并在2019年进一步升级。据介绍,该框架是基于声智科技的远场声光融合、多模态识别(声音、文字、图像、手势等)、推理和翻译、推荐搜索等技术的AIoT基础开发框架,也是声智科技得以迅速发展的核心技术。
资料显示,目前SoundAI Azero持续在健康、金融、城市和生活等一系列智能场景中落地应用,服务用户超过3亿,服务地区达73个,调用次数达到1000亿次。
“最初我们会把人机交互、语音交互的入口作为应用场景的切入点去开拓,但当它达到一定的市场饱和度之后,就需要开拓新的应用场景。”常乐回忆道,“因为要把技术放到更多的场景去验证和应用,我觉得这个是声智科技迅速能够得到市场认可的原因。”
“小模块”切入大场景
近几年来,人工智能行业涌现了大量的相关企业,但有些很快就没有声音了。为什么声智科技能够快速成长?
在常乐看来,首先是结合国家战略发展方向及行业趋势进行布局,这些方向很容易成为未来的风口,相关场景也存在大量窗口有待开拓及挖掘。而有能力进行深度布局的前提,则是自主研发的技术能力。“技术的领先性是企业必须要追求的,否则就会失去竞争的最大优势。我们认为,技术的窗口期只能保持在3-6个月,随后就会更新迭代。”
常乐透露,声智科技成立以来,持续进行大量研发投入。基于多模态人工智能操作系统和核心算法,目前声智科技已具备远场人机交互、声纹采集分析、数字接触追踪、多模态感知、小样本决策、多技能数字人等一系列核心技术。
技术从来都不应该是空中楼阁。目前,大量人工智能企业还处于亏损状态,其自身的“造血”能力也备受关注。常乐认为,人工智能企业的底层技术需要与真实场景相结合,从而在市场空间内实现“造血”。“不能单纯依靠政府补贴或资本市场的输血,这些无法从根本上构成企业成长的动力。”
需要注意的是,在开拓应用场景的过程中,声智科技往往能够在大场景中发现“小模块”的切入点。例如,在健康领域,声智科技首先以核酸检测信息化作为切入,基于SoundAI Azero人工智能开发框架开发出北京核酸检测信息统一平台、一站式疫情防控健康管理平台等,大大提升核酸检测效率。
此后,声智科技相继推出“零接触”AI电梯系统、AI数字人红外测温系统,并依托SoundAI Azero人工智能开发框架承担了包括北京、云南全省以及河北、河南部分地级市的防疫数字平台建设,涉及大规模核酸检测、新冠疫苗接种、多点疫情监测预警、社区联防联控等功能。
也正是在前期的持续积累下,2022年北京冬奥会期间,声智科技承担了包括“冬奥核酸应检尽检决策系统”“冬奥核酸‘声智门’”“冬奥赛事综合保障组指挥调度平台”以及“冬奥大脑-冬奥人员信息分析系统”在内的四项冬奥基础设施,为赛事提供了有关综合保障服务。
“冬奥期间我们提供了4个数字基础设施建设的服务,这些服务的背后,正是把我们的AI技术向外延展,去找到更多的应用场景。”常乐表示。
(作者:杨清清 编辑:林曦)