宫颈糜烂的原因

注册

 

发新话题 回复该主题

巨头混战,百箱争鸣双十一火拼下的智能 [复制链接]

1#
全国治白癜风最好医院 https://jbk.39.net/yiyuanzaixian/bjzkbdfyy/bdf/
智能音箱市场跌宕起伏,越来越多的人认为该市场将会在热潮与唱衰的博弈之间不温不火的走完今年。不料,当我们真正开始以谨慎的态度重新看待智能音箱市场时,阿里、京东等巨头围绕双十一展开的智能音箱销量“拼杀”则再度点燃了即将熄灭的战火,在针对入口的卡位与角逐下,眼下如火如荼的“双十一”大促销则成为了智能音箱市场全面爆发的又一个关键节点。而且随着格局的突变,整个智能音箱产业也将开始围绕市场及技术展开全方位的“进击”。
  年国内销量将远超35万-元成主流价格区间
  对国内的智能音箱市场而言,年无疑是一个真正意义上的“大团圆”,从过去的京东独大到如今的巨头混战,智能音箱市场的格局发生了翻天覆地的变化。年,国内该领域的玩家还只有叮咚、JBL和飞利浦少数几个玩家,其中叮咚音箱由于进入市场早及产品线丰富,整体上呈现出垄断的态势,全年的市场占比达到65%左右,而飞利浦与JBL占比分别为14%和20%;到了年,小米和天猫等厂商开始布局智能音箱市场,纷纷推出新产品,天猫精灵更是在上市后两个月内抢占了15%的市场份额,而小米智能音箱则更是将价格定在元的超低水平,叮咚音箱的市场份额也因此被逐步削减至38%左右,小米紧随其后占比32%,天猫占据15%;但随着此次双十一促销期智能音箱“决战”的到来,预计整个市场会出现阿里与京东双分天下的格局,而小米则会由于产能以及价格难降等问题,市场份额会出现稍许下滑。
  从销量方面来看,年起智能音箱市场就在高速增长,但今年可能会是该市场的最快的增长期,未来几年的增速将逐步放缓。据主流研究机构披露的数据显示,年中国智能音箱整体零售量仅1万台左右,年销量则增至6万台,销售渠道也以线上为主,线上月平均销量大概0台左右,整年销售规模达1.36亿元;而今年的1-8月,国内智能音箱累计销量已超过10万台,随着市面上不断涌现的新品以及电商巨头的大力助推,双十一期间国产智能音箱产品达到了销售顶峰。据供应链调查得到的数据,当前几个主要的智能音箱巨头玩家累计备货或正在加班加点量产的智能音箱备货量接近百万台,这场引爆智能音箱血战的各方都在紧锣密鼓储备粮草。以阿里为例,为迎战双十一阿里为天猫精灵下了约70万台的订单,目前已经生产了40多万台左右,其余30万台则在加班加点的生产中,再加上上一批量产的10万台产能,阿里为此次双十一大约准备了80万台的供给量。在这些巨头的疯狂推进下,预计年底国内智能音箱的总体销量将超过市场机构所预期的35万台,但高峰期过后,年整个市场的增速将逐渐放缓,预计到年销售规模可超10亿元。
  此外,受制于国内应用场景及消费者认知度等问题,智能音箱的主流价格区间也正逐步向-元范围靠拢。目前,中国智能音箱市场中产品价格段主要集中在元以下,例如在年下半年发售的喜马拉雅小雅和出门问问均定价在元,然而一些厂商为了抢占智能家居入口,不以盈利为导向,产品定价偏低,比如天猫精灵和小米“小爱同学”的零售价分别为元和元,这必然会进一步拉低整个市场的标准价格。而纵观整个中国智能音箱市场,元以下产品占比在不断降低,主要以元至元价格段为主的产品占比为80%,且随着高端新品的发售,元至元的产品将逐渐挤占中间价格段。同时,随着市场价格的逐渐走高,低价产品的占比也会逐步降低,-元将逐步成为主流的价格区间段。多麦克风方案占据主流成本及体积加速蜕变
  出于产品定位、供应链以及成本等多方位的综合考量,目前市面上主流的智能音箱所采用的麦克风阵列方案主要分为双麦和多麦混合两大阵营,比如AmazonEcho采用的“6+1”麦环形阵列结构、EchoShow的8麦椭圆阵列、苹果HomePod的环形6麦以及GoogleHome独树一帜的双麦。国内市场基本上也是如此,比如科大讯飞和云知声就主推双麦技术,其核心是基于美国科胜讯的双麦降噪芯片实现,成本相对较高;另外一些企业则主推多麦克风阵列,包括科大讯飞、思必驰和声智科技,但麦克风阵列成本稍高也是问题。
  不过,具体来讲,各方案之间也有着自身的优劣势。比如,如果想更好的去除部分噪声,双麦克风方案则会更具优势,这种方案比较折衷,主要优点就是ID设计更简单,在通话模式下可以去除某个范围内的噪音,但在语音识别的效果上和单麦的效果却没有实质性区别,如果再考虑语音交互必要的回声抵消功能,成本上还会上升不少。且双麦方案最大的弊端在于声源定位的能力太差,声源定位只能定位°内的范围,这在实际的应用场景当中会体现出不少问题,比如编者自己使用的“EufyGenie”就经常存在“听不见、“反应延迟”以及“语意识别率差”等问题,实际上这会给用户体验造成很大的影响,而相对来讲目前环形多麦克风阵列(不管是4Mic、6Mic还是8Mic)基本上都可以做到°全角度范围内的定位。
  有业内人士也对编者表示:“由于双麦克大多是用在手机和耳机等设备上实现通话降噪的效果,这种降噪效果可以采用一个指向性麦克风来模拟,这实际上就是双麦之中的EndFire结构,也就是1个麦克风通过原理设计模拟了2个麦克风的功能,而指向性麦克风的不便之处就是ID设计需要前后开两个孔,十分麻烦,比如京东和科大讯飞合作的叮咚1代智能音箱采用的就是这种指向性方案,因此运用了周边一圈的悬空设计。但从产品的角度来看,双麦克风方案简单更易落地,多麦克阵列最大的问题就是,无论线性或是环形阵列,其对于产品的外观、结构设计都有极为严苛的要求,因为麦克风要求必须在空间上是均匀分布的,比如需要建立阵列最优化模型、考虑宽带信号、非平稳信号以及混响等的处理能力等,而双麦克显然就不必考虑这些因素。”
  但如果更注重用户体验,希望产品能够适应更多的用户场景以及更好的用户体验,4麦以上的麦克风阵列方案则更可靠,在回声抵消及噪音去除等多个方面表现更佳。而且随着更多新产品及新技术的涌现,麦克风阵列的体积和成本也会得到进一步的优化,双麦与多麦阵列之间的差异正日趋缩小。比如,在体积方面,麦克风阵列受制于半波长理论的限制,现在的口径还是较大,虽然现在有的产品可以做到2cm-8cm的间距,但是结构布局仍然还是限制了ID设计的自由性,很多产品采用2个麦克风其实并非成本问题,而是ID设计的考虑,比如GoogleHome。但实际上,借鉴雷达领域的合成孔径方法,可以将麦克风阵列做的更小,而且这种方法已经在*工领域成熟验证,移植到消费领域相信只是时间问题。而在价格方面,双麦克阵列的目前的成本也要60元左右,这其中还不包含进行回声抵消的硬件成本,虽然4麦以上在硬件成本上相对会稍高一些,但综合成本其实差距并不大,而且今年多麦克风阵列之间的成本差异也在不断减小,成本下降非常明显,未来随着该产品的快速起量,预计麦克风阵列的成本问题将逐步被解决。深度神经网络成算法标配全面提升语音系统整体能力
  对于提升智能音箱整体的用户体验而言,麦克风阵列还仅是物理入口,它只是负责完成了物理世界的声音信号处理,但想要实现语音识别率的提升还需要依靠软件算法技术的支持,比如苹果HomePod在硬件的基础上采用了大量的音效算法,其中包括自动低音均衡、声学动态建模等,更强大的算法支持也令其成为迄今为止速度最快且音效最棒的智能音箱。
  对于语音识别算法系统而言,总体的处理流程相对硬件来说更为复杂,主要包括语音激活检测、特征提取、识别建模及模型训练、解码得到结果以及远场语音优化等几个步骤,具体如图2所示。其中,各个环节的匹配算法也都有出现一些新的演变趋势。
  1、VAD(语音激活检测)
  实际上,语音识别后续的操作都是在VAD截取出来的有效片段上进行,从而能够减小语音识别系统噪声误识别率及系统功耗。在近场环境下,由于语音信号衰减有限,信噪比(SNR)比较高,只需要简单的方式(比如过零率、信号能量)来做激活检测。但是在远场环境中,由于语音信号传输距离比较远,衰减比较严重,因而导致麦克风采集数据的SNR很低,这种情况下,简单的激活检测方法效果很差。目前来说,使用深度神经网络(DNN)来做激活检测是基于深度学习的语音识别系统中常用的方法(在该方法下,语音激活检测即为一个分类问题),比如MIT的智能语音识别芯片中使用了精简版的DNN来做VAD,该方法在噪声比较大的情况下也具有很好的性能,但是更复杂的远场环境中,VAD仍然是当下及未来研究的主流以及重点。
  2、特征提取
  特征提取方面,目前最主流的是梅尔频率倒谱系数(MFCC)特征,梅尔频率是基于人耳听觉特征提取出来的。MFCC主要由预加重、分帧、加窗、快速傅里叶变换(FFT)、梅尔滤波器组、离散余弦变换几部分组成,其中FFT与梅尔滤波器组是MFCC最重要的部分。但是近年研究表明,对于语音识别而言,梅尔滤波器组不一定是最优方案。受限的玻尔兹曼机(RBM)、卷积神经网络(CNN)、CNN-LSTM-DNN(CLDNN)等深度神经网络模型作为一个直接学习滤波器代替梅尔滤波器组被用于自动学习的语音特征提取中,并取得良好的效果。
  目前已经证明,在特征提取方面,CLDNN比对数梅尔滤波器组有明显的性能优势。基于CLDNN的特征提取过程可以总结为:在时间轴上的卷积、pooling、pooled信号进入到CLDNN中三个步骤。而远场语音识别领域由于存在强噪声、回响等问题,麦克风阵列波束成形仍然是主导方法,因此现阶段,基于深度学习的波束成形是自动特征提取方面的主流方法。
  3、识别建模及训练
  语音识别本质上是音频序列到文字序列转化的过程,即在给定语音输入的情况下,找到概率最大的文字序列。基于贝叶斯原理,可以把语音识别问题分解为给定文字序列出现这条语音的条件概率以及出现该条文字序列的先验概率,对条件概率建模所得模型即为声学模型,对出现该条文字序列的先验概率建模所得模型是语言模型。
  而识别建模方面主要分为声学模型和语言模型两大类。在声学模型当中,目前最常用的声学建模方式是隐马尔科夫模型(HMM),在HMM下,状态是隐变量,语音是观测值,状态之间的跳转符合马尔科夫假设。其中,状态转移概率密度多采用几何分布建模,而拟合隐变量到观测值的观测概率的模型常用高斯混合模型(GMM)。基于深度学习的发展,深度神经网络(DNN)、卷积神经网络(CNN)、循环神经网络(RNN)等模型也被应用到观测概率的建模中,并取得了非常好的效果。而在语言模型方面,最常见的是N-Gram,随着近年深度神经网络的建模方式逐步被应用到语言模型中,深度神经网络未来将在该领域得到更进一步的普及和发展,比如基于CNN及RNN的语言模型。
  目前阶段,端到端的建模方式是声学模型建模的重点研究方向,但是相比于其它的建模方式,其还没有取得明显的性能优势。如何在端到端建模的基础上,提升训练速度及性能,并解决收敛问题是声学模型的重要课题。
  4、解码
  基于训练好的声学模型,并结合词典、语言模型,对输入的语音帧序列识别的过程即为解码的过程。传统的解码是将声学模型、词典以及语言模型编译成一个网络。解码就是在这个动态网络空间中,基于最大后验概率,选择一条或多条最优路径作为识别结果(最优的输出字符序列)。而目前来看,语音搜索最常用的方法是Viterbi算法,而对于端到端的语音识别系统,最简单的解码方法则是beamsearch算法。
  5、远场语音优化
  远场语音优化是嵌入到整个算法处理流程中的,由于语音输入信号衰减比较严重,为了增强对语音信号的处理,不少公司常常采用麦克风阵列的波束成形技术来做核心支持,这显然提高了硬件的整体成本。如今,随着深度学习算法向该领域的纵深发展,该方法开始被应用到语音增强及分离处理当中,核心思想是把语音增强与分离转化成一个监督学习的问题,即预测输入声音源的问题。目前已有研究认为使用DNN来全面替代波束成形技术来实现语音增强,并在一定场景下取得了比较理想的效果,但是在背景噪声很大的环境中,该方法性能还有较大提升空间。
  而在智能音箱的常用环境中,多人说话的情况下,如果不对输入信号做分离处理,而进行语音识别的话,识别效果会很差。对于该问题,在多个说话人距离较远的情况下,波束形成是一个比较好的解决方案,但是当多个说话人距离很近的时候,波束形成的语音分离效果也很差。为了避开波束形成所带来的场景分类问题,传统的方法多是在单通道下尝试解决该问题,常用算法有
  总结
  经过多年的推广和发展,智能音箱已经开始起量,且在巨头之间的“双十一火拼”助推下,年有望真正成为国产智能音箱市场的爆发年,但产品普及过快与技术不成熟之间则构成了矛盾,因此预计明年该市场增长率将逐步放缓,行业真正步入“冷静期”。技术方面,多麦克风阵列方案必然会持续占据主流(相信谷歌新一代产品也会使用麦克风阵列),随着麦克风阵列产品的走量以及价格、成本的优化,未来的技术比拼将更看重麦克风阵列的布局形式以及更核心的软件算法的整体实力。因此,编者认为市场份额的确十分重要,但整个产业的健康发展还需要理性,过早催熟一个产业必将为将来种下苦果。
分享 转发
TOP
发新话题 回复该主题