过去一年,AIGC接棒“元宇宙”跻身科技圈“顶流”,在AI绘画神器Stable Diffusion、聊天机器人ChatGPT等现象级应用的背后,预训练大模型以海量数据底座和优异的算法表现等优势为AIGC助力良多。
在1月18日举行的科大讯飞2023年会上,科大讯飞董事长刘庆峰表示,科大讯飞早在2019年已开始研究超大模型关键技术,联合国内高校打造的开源预训练模型已成为业界头部中文预训练模型,助力行业智能化创新。
“未来,讯飞要进一步实现语言理解与知识学习等认知基础技术领先,让行业认知系统超过人类专家平均水平,具备复杂交互能力,在汽车、医疗、教育等行业率先落地。”
寒冬中逆势投入,科大讯飞坚定布局源头技术创新和系统性创新,为业务发展提供源头动力。科大讯飞2022年根据地业务也实现了同比增长23%的良性发展,稳住了局面,夯实了基本盘。刘庆峰说,2023年将在更加坚实的基础上充满信心地奋斗。
战略牵引源头技术创新 2022年初,科大讯飞基于未来老龄社会对机器人刚需的前瞻洞察,正式启动了“讯飞超脑2030计划”,突破软硬一体机器人的关键软硬件技术,让数字虚拟人和软硬一体化机器人都能够懂知识、会学习、有情感,能够进入并服务亿万家庭。
以讯飞超脑2030计划为牵引来推动源头技术的系统性创新,科大讯飞过去一年在复杂场景的多模感知、多维表达、认知智能和AI运动智能算法领域都取得长足进步。
多模感知实现语音与视觉、眼神、面部表情、肢体语言、环境的融合感知,多模态增强语音技术将主说话人的干净人声从嘈杂场景中分离出来,识别效果相较单模态提升约49.5%,在业界率先跨过实用门槛。在多语种语音识别、语音合成、图文识别、机器翻译领域,科大讯飞主要语种核心效果保持国际领先水平。
多维表达让声音和虚拟形象、肢体动作和背景画面实现联动,用更立体的方式对外表达。去年全球1024开发者节上发布的多风格多情感最新语音合成系统SMART-TTS,利用文本和语音的预训练,能够提供11种情感、40档强弱可调的语音表达。刘庆峰表示,讯飞2D虚拟形象技术已达业界领先水平,已积累虚拟人资产1027项。“我们要基于AI虚拟人交互平台打造中国的AIGC中心”,他进一步说,“2023年将重点突破3D个性化形象建构及Audio2Mesh驱动,推动3D形象技术领先。”
认知智能站上新台阶。科大讯飞相继在知识推理阅读理解比赛OpenBookQA、QASC中夺冠,超过人类平均水平;同时在逻辑推理阅读理解比赛ReClor中刷新全球最好成绩,使得机器可以在越来越多的领域帮助人们解决更专业和复杂的问题。
AI运动智能实现从0到1突破。通过加大AI算法与运动控制的结合,让机器人能够胜任更高难度任务,较传统主流运动控制方案效果提升30%。
2023年正式发布软硬一体机器人产品 有了核心技术加持,让数字虚拟人和软硬一体机器人走进亿万家庭、服务亿万用户的愿景正从蓝图走向现实,并带来全新的商业化机会。
多模态交互技术让汽车人机交互更加智能,复杂场景识别效果可达92.8%;覆盖71种语言识别能力的多语种技术,助力长安、上汽、长城、奇瑞等众多中国车企走向海外市场。
新一代语音合成系统SMART-TTS基于多风格、多情感的语音合成,能够给电话客服、语音助手、教育科普、电商直播、虚拟偶像、有声读物等虚拟人场景带来更加人性化的听觉体验。
基于多模态感知和医疗认知技术,科大讯飞可实现抑郁症多模态问诊筛查,并将在2023年正式发布面向全国青少年的抑郁症筛查平台。
2022年全球1024开发者节上,科大讯飞对外发布机器人超脑平台AIBOT,综合交互大脑+运动控制+硬件模组等多种AI能力,可应用于机械臂、仿生机器人、人形机器人、特种机器人等多类型机器人。基于多模态感知和AI运动智能融合,科大讯飞将在2023年正式发布软硬一体机器人产品。
面对当下不确定性的大环境,刘庆峰坚信,源头技术系统性创新是跨越寒冬的重要引擎,科大讯飞将继续围绕社会刚需推动技术创新,回归价值创造根本。
站在2023年的新起点上,刘庆峰表示,科大讯飞将开启高质量发展新阶段,在更加扎实的基础上,更高质量、更从容地实现千亿收入奋斗目标。