首页 - 最近大事件 - 微信最新版本,Google又逆天:语音输入离线实时输出文字,仅占80MB!但是……,李成儒

微信最新版本,Google又逆天:语音输入离线实时输出文字,仅占80MB!但是……,李成儒

发布时间:2019-03-31  分类:最近大事件  作者:admin  浏览:273

作者 | 琥珀

出品 | AI科技大本营(大众号i捣蛋猪3选关版d:rgznai100)

谷歌语音输入法可离线辨认啦!

这次出手的,又是谷歌 AI 团队。刚刚,他们为旗下的一款手机输入法 Gboard (不要跟谷歌拼音输入法搞混了啊~)上线了新功微信最新版别,Google又逆天:语音输入离线实时输出文字,仅占80MB!可是……,李成儒能:离线语音辨认。现在这一新功用,只能在其自家的产品 Pixel 系列手机上运用。

广阔现已下载或正在赶往下载路上的 Pixel 圈外人士,包含 iOS 用户或许都会绝望了。

他们是这样描绘这款新功用的装备的:端到端、全神经、本地布置的语音辨认体系。

在其最近的论文 “Streaming End-to-End Speech Recognition for Mobile Devices” 中,他们提出了一种根据 RNN-T(RNN transducer)的练习模型。

微信最新版别,Google又逆天:语音输入离线实时输出文字,仅占80MB!可是……,李成儒

它十分紧凑,可满意在手机上布置。这意味着不会出现太多网络推迟或紊乱,即运用户处于脱机状况,这款语音辨认体系也一直可用。该模型一直以字符级作业, 因而即使你说话,它也会逐一字符地输不文斋出单词,就好像有人在实时键入并精确在虚拟键盘听写出你说的话。

例如,下面两张图片中展现的是在听写体系中输入相同语句时的状况展现:左边为效劳器端,右侧为本地端。哪边的语音辨认体会更好呢?

总结起来便是,“离线状况下,没有任何延丝弦李天宝吊孝全集迟。”这也是谷歌此次亮出的大杀器。

微信最新版别,Google又逆天:语音输入离线实时输出文字,仅占80MB!可是……,李成儒

发作推迟是由于你的语音数据有必要从手机传输到效劳器上,解析完成后再回来。这或许需求几毫秒乃至几秒的时刻。假如语音数据混沌血神包在以太网中丢掉,则需求更长的时刻。

将语音转换成毫秒级的文本需求适当多的核算力。这不只简略是听到声响然后写一个单词那么简略,而是需求了解一个人说话的意义,以及背面触及的许多有关言语和目的的上下文语境。

在手机上是能够做到这一点的,但如此的话,又会很损耗电池电量。

语音辨认模型简史

一般来讲,语音辨认体系由几个部分组成:将音频片段(一般为 10 毫秒帧)映射到音素的声学模型、将音素衔接起来构成单词的发声模型,以及一个资宝成表达给定模型的言语模型。在前期体系,这些组件是相对独立微信最新版别,Google又逆天:语音输入离线实时输出文字,仅占80MB!可是……,李成儒优化的。

2014 年左右,研究人员开端专心于练习单个神经网络,将输入音频波形直接映射到输出语句。通过在给定一系列音频特征的状况下生成一系列单词或字形来学习模型,这种 sequence-to-sequence 的办法促进了 attention-based 和 listen-attend-spell(LAS)模型的诞生。尽管这些模型在精确性方面表现出极大的远景,但它们一般会查看整个输入序列,并且在输入时不允许输出,这是实时语音转录的必要特征。

一起,一种称为 connectionist temporal classification(CTC)的技术有助于削减其时辨认体系的延时问题。这关于后来创立 RNN-T 架构是一次重要的里程碑,也被看作是 C郭森斯坦达TC 技术的一次泛化。

(编者注:CTC,其全称为 Connectionist Temporal Classfication,由 Grave北京太平间守夜员急招s 等人于 2006 年提出,用于练习递归神经网络(RNN)以处理时序可变的序列问题。它可用于在线手写辨认或辨认语音音频中音素等使命。发展到现在,CTC 早已不是新名词,它在工业界的运用十分老练。例如,在百度近来发布的在线语音辨认输入法中,其最新语音模型在 CTC 的根底上还交融了 Attention 等新技术。)

何为RNN-T?

RNN-T 是一种不选用注意力机制的 sequence-to-sequence 模型。与大多数 sequence-to-sequence 模型(一般需求处理整个输入序列(在语音辨认中便是波形)以发生输出语句)不同,RNN-T 会接连处理输入样本和流输出符号。

输出符号是字母表的字符。RNN-T 会逐一输出字符,并在恰当的方位输入空格。它通过反应循环履行此操作,该练习将模型猜测的符号反应到其间以猜测下一个符号。如下图所示。

用输入音频样本 x 和猜测符号 y 表明 RNN-T。猜测符号(Softmax 层的输出)通过猜测网络反应到模型中。

有用练习这样的模型现已很困难,但随着新开发的练习技术进一步将单词错误率降低了 5%,它的核算强度变得更污故事高。为了处理这个问题,研究人员开发了一个并行完成进程微信最新版别,Google又逆天:语音输入离线实时输出文字,仅占80MB!可是……,李成儒,因而 RNN-T 丢失功用能够在 Google Cloud TPU v2 上大批量运转。练习中完成了大约 3 倍的加快。

离线辨认

在传统的语音辨认引擎中,声学、发声和语音模型组合成一个大的图查找(search graph),其边际用语音单元及其概率符号。当语音波形出现给辨认体系时,“解码器”在给定输入信号的状况下会查找图中类似度最高的途径,并读出该途径所选用字序列。一般,解码器选用根底模型的有限状况传感器(Finite State Transducer, FST)表明。可是,尽管有杂乱的解码技术,图查找仍很困难,由于女诗人邀观众摸胸出产模型简直有 2GB 巨细。这可不是在移动电话上想保管就能够完成的,因而这种办法需求在线衔接才干正常运用。

小小才智树宝物二加一

为了进步语音辨认的有用性,研究人员测验直接在设备上保管新模型以防止通讯网络的推迟和固有的不可靠性。因而,端到端的办法不需求在大型解码器图上进行查找。相反,解码器包含通过单个神经网络的集束查找(sp张飞beam search)。RNN-T 与传统的根据效劳器端的模型具有相同的精度,但前者只要 450MB,并且愈加智能地运用参数和打包信息。但即使在现在的智能手机上,450MB 仍是占用了很大的空间,例如通过大型网络是信号传达或许会很慢。

因而,研究人员通过运用参数量化和混合内核技术进一步减小了模型巨细。这项技术早在 2016 年就已发布,并在 TensorFlow Lite 版别中供给揭露的模型优化工具包。模型量化相关于练习的浮点模型供给 4 倍紧缩,在运转时完成了 4 倍加快,这使得 RNN-T 比单核上的实白裘恩真实身份时语音运转得更快。紧缩后,终究模型巨细只占 80MB。

作用怎么?

谷歌揭露这一新功用后,TechCrunch 谈论称,“鉴于 Google 的其他产品简直没有是离线作业的,那么你会在离线状况下写一封电子邮件吗?当然,在网络条件欠好的状况下,这款运用新功用或许会处理了用户痛点,但明显,这仍是有点挖苦(鸡肋)。”

而这也一度招引来了 HackerNews 上不少用户谈论,他们也将部分锋芒指向了所谓的“离微信最新版别,Google又逆天:语音输入离线实时输出文字,仅占80MB!可是……,李成儒线功用”:

“离线功用尽管不是最主要的招引力,但正如本文中说到的,推迟问题的减游蓝恋之小蓝怀孕后续少微信最新版别,Google又逆天:语音输入离线实时输出文字,仅占80MB!可是……,李成儒是巨大的。他们或许没有提及的是对隐私问题的影响。不过,用户一般不会离线处理事物,但假如需求来回的安稳数据包流,衔接网络也是很费事的问题。”

不过,通过测验后的用户仍是十分看好:“我仅仅将我的 Pixel1 代切换到飞翔模型,并测验了语音输入。公然,它的离线作业速度很快!这令人十分形象深入(我之前测验过,但曩昔它只能了解一些特别的短语。)

有多好办法能够完成铁牛和大东这一功用呢,但我以为任何运用都能从这次语音的改善中获益。“

为此,营长也特意下载了 Gboard、讯飞、百度三家语音输入法,试看它们在飞翔形式下的作用怎么。

Round 1

Gboard:现在非 Pixel 手机中离线语音尚无法运用,且针对某些机型乃至不支持语音。不过,打字仍是比较丝滑流通的。

Round 2

讯飞:可下载离线语音包,张小盒巧战僵尸不过在正常网络晓畅状况下,语音辨认的速度和精确傻瓜游记忆仍是适当高的。

Round 3

百度:也可下载离线语音,无皮德尔网络衔接状况下,语音辨认作用仍是能够的。

不知国内常常运用讯飞、百度输入法的小伙伴们,看到这一音讯有何主意?欢迎留言。

色母色母

参阅:

https://ai.googleblog.com/2019/03/an-all-neural-on-device-speech.html

(本文为AI科技大本营原创文章,转载请微信联络 1092722531)

有奖活动

扫码参加问卷,活动完毕后,将抽取40位走运用户随机发放“CSDN VIP会员卡”或许“移动电话充值卡”。

学生不雅观 开发 手机 技术
声明:该文观念仅代表作者自己,搜狐号系信息发布渠道,搜狐仅供给信息存储空间效劳。