依图科技入局语音识别,欲借助高精确度算法促进行业透明化

依图成立于2012年,在人工智能领域的主攻方向包括计算机视觉、自然语言理解、语音识别、人工智能芯片。此前,这家"独角兽"企业最为人所知的成就集中在人脸识别领域:今年6月份,依图科技第二次获得了NIST比赛人脸识别冠军。同一时间段内,依图科技接连获得高成资本、工银国际、浦银国际、兴业国信资管的融资,融资金额总计3亿美元。

近年来,围绕着智能语音的竞争日趋激烈。智能家电、智慧交通、可穿戴设备等应用领域百花齐放,其背后的支柱是作为基础的语音识别API。在依图入局之前,国内语音识别API中不仅有着科大讯飞、云知声等专攻语音的科技公司,以BAT为代表的互联网巨头也先后进军市场,推出了各自的API及硬件产品。

据中国语音产业联盟日前发布的《2017-2018中国智能语音产业白皮书》显示,2014年至2018年,中国智能语音产业规模由30亿元增长至159.7亿元,年平均增长率接近40%。市场目前依然保持垄断的竞争格局,科大讯飞和百度分别以44.20%和27.80%占据市场份额前两位。

然而在吕昊看来,当前技术下的语音识别效果还远没有达到理想水平。这意味着即使入局时间较晚,后来者也有望借助技术优势撬动市场。吕昊直言,目前各个厂商都宣传自己产品有着97%、98%的识别准确率,但是这一数据的由来却无从得知。在实际使用中,主流语音识别API仅在特点场景下效果较好,而在一些复杂场景--如电话、语音节目、远场中,既有产品的精确度大都差强人意。上升到人机交互方面,目前的技术更是局限于进行一些基于规则的对话,"非常不智能。"

在发布会现场,依图科技科学家吴双发布了一项测试数据。该测试将目前市场主流语音API应用于总时长约50小时,共计60万字的数据集,从而得出各家语音API在不同场景下的字错率水平。一般认为,语言识别转文字后,字错率低于3%时不会影响可读性,而超过15%则毫无可读性。在这次测试中,依图语音API的字错率领先于全部同类产品,且这一比较优势在复杂场景下更为显著。

评论

  • 相关推荐
  • 新闻
  • 娱乐
  • 体育
  • 财经
  • 汽车
  • 科技
  • 房产
  • 军事