【太平洋计算机王文龙团队|深度研究】百度的人工智能崛起之路

 

投资要点:

百度AI平台将逐步开放,助力构建百度AI生态圈

今年的百度AI开发者大会(Baidu Create 2017)上,百度AI平台架构图首次完整亮相,全新开放了视频、语音、AR/VR、机器人视觉、自然语音处理等五大类目共14项全新能力。此次开放的技术能力总共有60个,是目前最全面的AI技术开放平台,包括百度智能云及百度大脑。此外,百度在AI方面的布局已经相对完善,无论是从AI部门的设置、集团战略定位,还是从开放的各类技术平台均能够帮助百度更快地构建生态圈,以此带来更多场景应用的落地。

AI平台开放、百度生态建设延伸至端

百度AI平台以百度智能云为基础、百度大脑为核心,目前开放DuerOS和Apollo两大平台向终端下沉,与云端一起初步构建起AI生态圈。百度以DuerOS作为其人工智能的切入点,打造智能语音生态链;以Apollo自动驾驶开放平台作为其人工智能的核心突破口。Apollo自今年7月发布以来,已开放14项核心能力,生态合作伙伴超50家,成为全球最强大的自动驾驶生态。此外,PaddlePaddle深度学习平台已经被应用于百度的30多个主要产品。

百度“能听会看”作为触手、带动技术领域的商业化落地。

百度目前正使机器从“能听”走向“能听懂”:以语音识别作为切入点构建人工智能生态圈;通过自然语言处理技术赋予机器认知能力;以全方位视频理解技术使机器不仅“会看”,还会理解。

风险提示

人工智能仍在探索阶段,各家技术方向并不完全趋同,又涉及整个产业链的融合能力,因此,最终落地形态和成熟的商业场景存在较大的不确定性。

目录:

一、百度AI平台将逐步开放,助力构建百度AI生态圈

“云+大脑”打磨升级构成百度AI平台

多领域在人工智能方向进行战略构建

二、AI平台开放、百度生态建设延伸至端

DuerOS:开放的对话式人工智能系统

Apollo:自动驾驶开放平台

PaddlePaddle:深度学习开放平台

三、百度“能听会看”作为触手、带动技术领域的商业化落地

从“能听”走向“能听懂”的学习之路

全方位视频理解技术使机器不仅“会看”,还会理解

四、风险提示

一、百度AI平台将逐步开放,助力构建百度AI生态圈

1、“云+大脑”打磨升级构成百度AI平台

百度AI开发者大会(Baidu Create 2017)上,百度AI平台架构图首次完整亮相,全新开放了视频、语音、AR/VR、机器人视觉、自然语音处理等五大类目共14项全新能力,此次开放的技术能力总共有60个,是目前最全面的AI技术开放平台。百度AI平台由百度大脑及百度云组成,分为云、大数据、算法层、感知层、认知层、平台层五大层次(数据来源:TechWeb),核心能力的开放已达60余项。

作为百度AI平台的核心,百度大脑由算法层、感知层、认知层、平台层共同组成,是业界第一个完整清晰地把认知层和感知层放在一起的人工智能平台。(数据来源:TechWeb)

▪ 算法层包括大数据、深度学习,是百度大脑的底层基础。

▪ 感知层包括语音识别、图像识别、视频理解和增强现实/虚拟现实4大核心技术能力,赋予机器“听懂、看懂”的能力;

▪ 认知层包括领先的自然语言处理、知识图谱、用户画像能力,赋予机器“理解”能力。

▪ 平台层即百度AI开放平台,集合了百度所有的AI能力并将逐渐开放给所有开发者。

2、多领域在人工智能方向进行战略构建

百度自2013年1月组建专注于Deep Learning(深度学习)的研究院—Institute of Deep Learning(简称IDL)开始,百度便已经积极布局人工智能:

1)机构设立方面:公司先后成立自然语言处理部(2010年)、百度硅谷人工智能实验室(2014年)、自动驾驶事业部(2015年)、度秘事业部(2017年)、AR实验室(2017年)、智能驾驶事业群组(IDG,2017年)、深度学习技术及应用国家工程实验室(2017年)等。其中:今年3月22日,百度通过内部邮件宣布进一步深度整合包括NLP、KG、IDL、Speech、Big Data等在内的百度核心技术,组成百度AI技术平台体系(Artificial Intelligence Group,简称“AIG”)。(数据来源:搜狐科技)近期,百度对AIG进行了调整:

单独成立智慧机场业务部、智能客服与金牌销售业务部。智慧机场业务部重点面向航空服务领域;智能客服与金牌销售业务部,融合语音识别、自然语言处理等前沿技术,提升企业与客户电话沟通中的效率和效能。该技术通过对呼叫中心的通话历史语音进行分析,提取客户画像、优秀销售经验,并在通话过程中进行实时语音识别及分析等方式,结合当前客户情况与销售特点,个性化推荐适合的销售思路与话术要点。

强化了AI应用技术研发,原隶属于研究院的几个技术团队升格为独立的技术部门,包括视觉技术部、人脸技术部、增强现实技术部等。

成立AI技术平台与生态部,进一步整合推动百度所拥有的自然语言处理、知识图谱、深度学习、语音图像、大数据等技术。

2)人才储备方面:2017年,百度与北京航空航天大学合作设立人工智能专业;目前,BAT的AI人才布局中百度总数领先,占比2.54%(数据来源:e成科技)。

3)技术落地方面:语音开放平台上线(2013年)、DeepSpeech深度语音识别系统(2014年)、小度机器人(2014年)、全球首个基于深度学习的大规模在线翻译系统(2015年)、机器人助理“度秘”(2015年)、无人驾驶汽车相关技术(2015年)、AR技术帮助伊利等零售商进行营销(2016年)、针对移动设备打造的增强现实平台“度视”(2016年)、医疗大脑等百度大脑(2016年)、百度输入法4.0引入人工智能(2016年)、百度AR先后与欧莱雅合作,带来全新广告营销方式(2016年)、与KFC合智能推荐点餐(2016年)、与神农架合作AR观山(2016年)、《但丁密码》AR面具海报(2016年)、G-1智能高清机顶盒(2016年)、乌镇世界互联网大会人脸识别闸机(2016年)、海尔与美的搭载DuerOS打造智能家居(2017年)、家庭陪伴型机器人“分身鱼”(2017年)、国航用人工智能进行人脸识别(2017年)。

4)资本投入方面:自2016年开始,公司先后投资美国科技公司ZestFinance、激光雷达公司Velodyne LiDAR、人工智能语音助手平台开发商Raven Tech、计算机视觉公司xPerception、以色列视频捕捉技术公司Pixellot、投资上海汉枫科技及室内导航公司IndoorAtlas、参股新西兰VR/AR/3D成像公司8i、收购专注于语音唤醒和自然语言理解的人工智能创业公司KITT.AI(2017年)等。

2017年1月,陆奇先生加入百度担任集团总裁兼CEO,围绕人工智能在集团架构、业务以及人事方面大刀阔斧进行改革,包括将自动驾驶事业部(L4)、智能汽车事业部(L3)、车联网业务(Car Life etc)合并组建新的智能驾驶事业群组(IDG),并向汽车行业及自动驾驶领域的合作伙伴提供一款名叫Apollo的开放软件平台。

国外方面,Amazon、Facebook布局人工智能主要是为了智能其各自的传统主业以使自身在各自领域保持竞争力,而Google及IBM则是从集团层面对其人工智能生态建设进行了整体规划。国内方面,阿里巴巴在人工智能方面的行动主要是针对具体的应用场景进行智能化,而腾讯则主要是通过在各事业部组建AI团队来推进集团人工智能的发展。

可以看到,百度在AI方面的布局已经相对完善,无论是从AI部门的设置、集团战略定位,还是从开放的各类技术平台,均能够帮助百度更快地构建生态圈,以此带来更多场景应用的落地。

二、AI平台开放、百度生态建设延伸至端

百度AI平台以百度智能云为基础、百度大脑为核心,目前开放DuerOS和Apollo两大平台向终端下沉,与云端一起初步构建起AI生态圈。同时,深度学习开放平台PaddlePaddle具备易用、高效、灵活和可伸缩等特点,使程序员可以快速应用深度学习模型来解决各种实际问题,加快实验室技术在各类场景的应用落地,促进百度AI生态的扩散。

百度AI平台的开源有助于百度吸引更多优秀的开发者参与进来,在帮助完善AI平台功能的同时,培养用户的使用习惯,构建起开发者生态。此外,还可以通过开发者使实验室技术更快地在具体场景落地。百度可凭借开放的平台寻找到更多的合作者,构建起合作伙伴生态,共同推出行业解决方案和生态合作方案。

1、DuerOS:开放的对话式人工智能系统

百度在2017CES上推出了DuerOS。此外,百度还发布了DuerOS智慧芯片,具有:“三低、三高”的特点—低成本、低门槛、低消耗、高安全、高集成、高附加。这款DuerOS智慧芯片已将DuerOS与紫光展锐RDA5981完美集成;还采用了ARM公司mbed OS内核及其安全网络协议栈,实现了与云端的安全连接,降低了设备商应用开发门槛。(资料来源:eeworld)

7月15日,在BaiduCreate 2017上,度秘事业部总经理景鲲发布了DuerOS开放平台。该平台以DuerOS对话系统为核心层,应用层为智能设备开放平台,能力层为技能开放平台。其中技能开放平台目前已经拥有10大品类、100多项原生技能且支持第三方资源和内容接入。作为中国版Alexa,未来百度将以DuerOS为切入点,进一步推动集团人工智能生态的构建。(资料来源:搜狐科技)

【参考资料:Alexa】

Alexa是Amazon推出的一款语音助手,可以对语音指令进行处理并做出语音回复或执行相应操作,截止2017年6月底,Alexa语音助手已拥有超过1.5万项技能,比官方2月份公布的1万多项增长了一半多(资料来源:雷锋网)。

目前Alexa主要应用于智能音箱、智能家居、可穿戴设备、购物助手等。亚马逊允许设备制造商通过使用Alexa语音服务(AVS)将Alexa不断增长的语音功能集成到自己的连接产品中。该语音服务(AVS)是一种云服务,提供基于云的自动语音识别(ASR)和自然语言理解(NLP)。

Alexa的语音识别系统框架主要包括四大块:信号处理(Signal processing)、声学模型(Acoustic model)、解码器(Decoder)和后处理(Post processing)。

首先将收集来的声音进行一些信号处理,将语音信号转化到频域,每10毫秒的语音生成一个特征向量,发送到后面的声学模型。声学模型把音频分成不同的音素。接下来解码器可以解出概率最高的词串。最后一步是后处理,把单词组合成易读取的文本。

其中,声学模型就是一个分类器,输入的是向量,输出的是音频类别对应的概率。该模型是一个典型的神经网络,底部是输入的信息,隐藏层将向量转化到最后一层里的音素概率。

一个美式英语的Alexa语音识别系统,会输出美式英语的音素。以美式英语为基础的Echo,录了几千小时的美式英语语音来训练神经网络模型,这个成本非常高。但是,世界上还有很多其它的语言,比如德语,如果再从头用几千小时的德语语音训练,成本太高。所以,这个神经网络模型有趣的地方就是可以“迁移学习”,它可以保持原有模型中其它层不变,只把最后一层换成德语。两种不同的语言,音素大部分是不一样的,但是仍然有不少相同的部分。因此,仅使用少量的德语语音数据,就可以在稍作改变的模型上得到较准确的德语结果。

现在,DuerOS可以将搭载Alexa的智能音箱变成能听懂中文。未来,百度将把DuerOS打造成AI时代的“安卓”,为AI开发者铺垫好技术基础,帮助其更方便快捷地开发智能语音交互设备,从而打造以DuerOS为入口的智能语音生态链。(资料来源:搜狐科技)

2、Apollo:自动驾驶开放平台

百度AI的核心突破口当属自动驾驶,首先是成立智能驾驶事业群组(IDG)。紧接着于今年4月在上海车展上发布了“Apollo”计划,向汽车行业及自动驾驶领域的合作伙伴提供开放的、完整的、安全的软件平台,帮助他们快速搭建一套属于自己的自动驾驶系统。Apollo开放平台的发布标志着百度在人工智能的系统级开放进程更进一步,这也是全球范围内自动驾驶技术的第一次系统级开放。百度将致力于将Apollo打造成汽车工业时代的安卓,但是比安卓更开放、能量更大。

7月5日百度AI开发者大会上,百度首次对外公布Apollo详细的路线图、技术框架以及首期开放Apollo 1.0的能力。会上,百度宣布Apollo生态合作伙伴联盟规模超50家,目前Apollo生态合作伙伴联盟已辐射OEM、Tier1、地图公司、芯片公司、基金投资、个人开发者、创业公司、研究机构及政府机构等,成为全球最强大的自动驾驶生态。

Apollo将提供一套完整的软硬件和服务系统,包括车辆平台、硬件平台、软件平台、云端数据服务等四大部分。此外,百度还将开放环境感知、路径规划、车辆控制、车载操作系统等功能的代码或能力,并且提供完整的开发测试工具。并且,百度还会在车辆和传感器等领域选择协同度和兼容性最好的合作伙伴,推荐给接入Apollo开放平台的第三方合作伙伴使用,进一步降低自动驾驶的研发门槛。

Apollo核心技术的总体技术框架由4个部分组成:

Apollo的开放的软件平台,核心有四个模块:(1)自定位模块,百度具备业界领先的高精地图与传感器的能力融合,能够为每一个车辆提供低成本、全天候的精准定位。(2)感知模块,感知是自动驾驶工业当前的创新重点,百度的感知模块将多个传感器组合在一起,通过人工智能技术,使每一辆车都能看清、看懂路况,看到每一个行人、每一个车辆、每一个障碍物。(3)车辆规划控制,使用AI+大数据以及最安全的驾驶策略,可以精准控制每一辆车,同时可以适合各个不同的路况。(4)底层的运行框架,核心是安全性、可靠性和实时控制,能支持Intel和NVIDIA不同的芯片。

Apollo的服务平台。(1)高精地图服务,是自动驾驶的基础。(2)仿真引擎,快速累积海量的数据,能够使开发者日行百万公里。(3)安全服务。百度将为开发者提供持续、高度安全的服务。(4)DuerOS,为每一辆提供智能化车内体验。

参考硬件平台和参考车辆平台,能支持各种各样的不同的计算硬件,从CPU到GPU到FPGA。同时还支持各种不同的传感器,从GPS到IMU到摄像头、激光雷达、雷达等等。通过将各个模块的融合,Apollo为每一个开发者提供了从零到一的能力进入自动驾驶研发。



2017年9月20日,百度宣布Apollo1.5正式开放,包含障碍物感知、决策规划、云端仿真、高精地图服务、端到端的深度学习(End-to-End)等五大核心开放能力,并支持昼夜定车道自动驾驶。其中,原本计划于年底开放的端到端的深度学习(End-to-End)在9月20日宣布提前开放。

能力一:障碍物感知

感知模块的目标是在给定从激光雷达传感器获得的三维点云数据后提供感知障碍的能力。它能检测、分段和跟踪以高精度地图ROI方式定义的障碍。此外,它预测障碍物的运动和姿态信息(如航向、速度等)。核心的3D感知模块是基于大规模点云数据训练的深度卷积神经网络 (CNN) 的障碍物检测和分割算法,包括高精地图ROI 过滤、基于CNN的障碍物检测与分割、MinBox 障碍物框构建和HM物体跟踪。

从7月Apollo1.0发布以来,短短两个多月便增加了20家左右的合作伙伴,截止目前Apollo已有70多家合作伙伴。新增合作伙伴包括OEM主机厂、Tier1供应商、开发者生态公司。同时百度宣布Apollo基金“双百计划”,将在三年内投入100亿资金,完成超过100家项目的投资,未来将进一步壮大Apollo平台的生态联盟。

能力二:决策规划

决策规划模块根据实时路况、感知模块输出的信息、道路限速等信息做出相应的轨迹预测和智能规划,同时兼顾安全性和舒适性,提高行驶效率。决策规划模块主要由障碍物检测、路径规划、选择与控制三部分组成。

能力三:高精度地图

高精度地图与普通电子地图的主要区别是高精度地图拥有更精确的车辆位置信息和更丰富的道路元素数据信息,起到构建类似于人脑对于空间的整体记忆与认知的功能,可以帮助汽车预知路面复杂信息,如坡度、曲率、航向等,更好地规避潜在的风险。是实现自动驾驶的关键所在。此外,高精度地图还起到了车辆间共享路况信息、识别交通标志的作用。

能力四:云端仿真

其中开放云端仿真功能作用极为重要,在正常的产品开发过程中,良好的仿真测试环境将方便产品开发者在模拟环境中快速测试产品的性能、可靠性等,加快产品的迭代测试周期从而提高产品测试效率:

能力五:端到端

按照2017年7月百度发布的规划,端到端深度学习能力比原定的2017年12月提前了3个月,开放速度有所加快。本次开放的障碍物感知和决策规划能力使车辆能够实现不分昼夜的精准障碍物识别,并能通过深度神经网络精准预测行驶路径,从而做出最终的驾驶决策。

百度IDG部门的郁浩在百度技术沙龙上的演讲中提到,和Apollo中端到端学习相对的是传统无人驾驶项目中主要使用的规则式系统,这是过去二十多年无人驾驶研究的主流方向。规则式系统从车辆开始是一个闭环:从车辆到车上的传感器,获取输入信息,这些信息经过感知层处理,提取出道路、行人和车辆等各种信息。在感知到的信息的基础之上,再加入高精地图等一些静态信息,把动态信息和静态信息结合到一起形成较完备的世界模型(World Model)——对外部环境的完备描述。在此基础之上就可以进入到决策模块产生决策,然后控制模块把决策信号传递给车辆。

上图是一个很简单的闭环模式,也有很多人提出了相关的或类似的架构,比如国际汽车工程师学会(SAE)在上边闭环的基础上,更细化分成大环、小环和各个模块之间的关系。

为了使规则式系统能够满足自动驾驶的需要,需要不断细化、得到更复杂的功能模块图,真正系统落地时往往有上千个模块。因此规则式系统有3个特点:

▪ 系统十分复杂,需要人工设计上千个模块;

▪ 高精地图成本很高:规则式系统对外界有很大依赖,高精地图精度要到厘米级。这也带来需要及时更新等问题;

▪ 对车载硬件计算能力要求很高,规则式系统中每一个模块都有相应的深度学习应用,部署在车上的每个模块都对计算资源需求很高,车上可能需要运行几个,甚至十几个深度学习网络。

简单地归纳一下,与规则式系统相比,端到端学习更像是在模拟、贴合人的思考过程,包括人的下意识思考。相对规则式系统而言,端到端学习成本更低,但需要大量优质数据来让机器进行学习、筛选各种情况下有效的路径。

端到端的已有案例

Apollo1.5的合作者Momenta基于定车道昼夜自动驾驶能力,很快完成了实车验证。实际道路测试表明,搭载了Apollo1.5的平台即使在夜间可视度不佳的情形下,依旧能完成各种复杂的交通场景识别。

另一个合作伙伴智行者科技在Apollo平台上打造的无人驾驶扫路车,目前已经在北京一家园区正式落地,开创了Apollo自动驾驶作业车的先例。2017 CES Asia展会上,百度联合长城汽车、NVIDIA,在哈弗H7展示了基于单目摄像头+百度深度学习技术的端到端自动驾驶解决方案,进行了公开试乘。

Apollo平台目标实现生态,开源广纳合作者参与

自Apollo1.0发布2个多月后,其在知名开源平台Github上已经聚集了6000多的开发者,位居开源平台前列。 Apollo GitHub将自己定义为一个开放的、完整的、安全的自动驾驶平台,以灵活和高性能的技术架构,为全自动驾驶提供支持。

Apollo开源代码资源可以分为三部分,分别是apollo、apollo-platform、apollo-kernel。

第一部分,apollo该部分有入门文档,介绍了Apollo的基本信息。modules文件夹中是各个模块(如感知模块perception,预测模块prediction,端到端e2e)的开源内容。还有一些其他文件夹:docker沙箱,scripts脚本,third_party第三方开源代码,tools工具。说明文档推荐使用已经设置好的沙箱模式。

第二部分,apollo-platform该部分内容用来提供平台支持,目前主要是一套经过修改的ROS(机器人操作系统)。

第三部分apollo-kernel,该部分内容用来提供核心支持,目前Apollo核心使用的是修改过的Linux Kernel 4.4.32。

Apollo生态链及标的公司

无人驾驶快速落地,行业生态起到了关键性作用,对比手机的Android系统来看,在Android系统2009年面世之前,各个手机厂家都有自己的操作系统,而在Android系统出来后,短短几年内,各大手机厂商操作系统都统一在开源的Android系统之下(苹果公司的IOS除外),而没有跟上这个趋势的厂商(如诺基亚、摩托罗拉等)很快就销声匿迹了。现在Apollo平台,正如Android系统初生之时,在国内有一统平台的潜质,Apollo目前已经拥有70多家合作伙伴,已有多家合作伙伴采用公司的平台进行产品研发,未来前景良好。因此,如果关注A股上市公司,建议投资者重点关注参与到Apollo产业链的公司,尤其是那些细分行业的龙头,具有良好的爆发性机会。

Apollo保持着每周数十次频率的代码更新,从2017年7月到9月两个多月时间新增6.5万行代码。同时,Apollo获得全球开发者的积极响应。截止2017年9月20日,共有1300多个合作伙伴下载使用了Apollo开源代码,近百个合作伙伴通过Apollo官网申请开放数据。上线当月,在全球最大的开源社区Github的全球C++类项目中排名第一,6000多个开发者推荐使用Apollo开源软件。

3、PaddlePaddle:深度学习开放平台

PaddlePaddle前身是百度于2013年自主研发的深度学习平台,一直为百度内部工程师研发使用。2016年9月,百度宣布其深度学习平台PaddlePaddle在开源社区Github及百度大脑平台开放。2017年年初,PaddlePaddle可在Google开源的Docker容器集群管理系统Kubernetes运行,并成为目前唯一官方支持Kubernetes的深度学习框架,两个开源项目的结合意味着深度学习对于广大开发者正变得“触手可及”。(数据来源:百度百科)

PaddlePaddle具备5大优势:

灵活:PaddlePaddle支持大量的神经网络架构和优化算法,支持任意复杂RNNs结构。

高效:PaddlePaddle会每一级的计算、内存、架构及通信进行优化,以充分利用异构计算资源。

可扩展:PaddlePaddle能通过优化通信,获得高吞吐量和性能。

易用:Paddlepaddle可以使开发者更加专注于模型的高层结构。

可快速部署:由于PaddlePaddle简单、可扩展的特性,因此可被快速部署到各类应用场景中。

TensorFlow:大部分功能可以通过从库里直接调取代码实现,不需要手动编程。内存占用较大,且不支持时间序列的卷积。

Theano:相较于深度学习,其更适合数值计算优化。 它允许自动功能梯度计算。但目前不具备多GPU支持和水平功能。

Caffe:注重计算机视觉,灵活性不够,安装过程较繁琐。如果有新的改动,需要使用C ++和CUDA进行编程;对于较小的改动,可以使用其Python或Matlab来完成。

Torch:是一个很好的平台,但是开发语言Lua较小众,学习成本大。实现并且优化了基本的计算单元,使用者可以在此基础上编写自己的算法。

MXNet:支持Python、R、C ++等多种语言,特别受R语言使用者的欢迎,并且有独特的多GPU扩展功能。

PaddlePaddle:使用界面类似于Caffe,并且较好地支持RNN与NLP以及多CPU/GPU并行计算。相较于较TensorFlow,PaddlePaddle能帮助开发者聚焦于构建深度学习模型;相较Caffe,PaddlePaddle支持更多应用场景。(资料来源:Medium、CSDN、Spark Summit2016)




目前,PaddlePaddle已经被应用于百度的30多个主要产品,如外卖菜品识别、预估出餐时间、海量图像识别分类、字符识别(OCR)、机器翻译和自动驾驶等领域。(资料来源:百度百科)

三、百度“能听会看”作为触手、带动技术领域的商业化落地

从“能听”走向“能听懂”的学习之路

1、百度以语音识别为切入点,构建人工智能生态圈。

2017年,百度语音开放生态2.0。目前,百度语音开放生态已经构建起包括模型层、功能层、交互层、接入层的四层开放架构,已有近25万开发者纳入生态圈,日调用总数达20亿次。(资料来源:百度feed)在开放生态2.0中,百度将开放远场识别及唤醒技术、定制化语音合成、语音合成音色等技术:

远场语音识别及唤醒技术:百度通过数据增强技术,复用百度积累的海量搜索语音数据和世界领先的语音模型识别,将近场语音技术完整迁移到远场。此外还适配包括Intel、科大讯飞、科胜讯在内的主流麦克风陈列。同时对家居场景进行定向噪声优化;

定制化语音合成技术:包括定制化文本转语音技术、语音合成标注语言标签语言、基础标签及百度扩展内容;

开放音色合成:包括自然音色和个性化及明星合成音色;

目前,百度已与联想、中兴、长虹、索尼、iReader、携程、特斯拉等品牌合作,构建包含模型层、功能层、交互层、接入层的语音开放架构。

语音识别的目标是以电脑自动将人类的语音内容转换为相应的文字,其应用包括语音拨号、语音导航、室内设备控制、语音文档检索、简单的听写数据录入等。

直到第三次人工智能热潮来临,深度学习的崛起、高性能计算和大数据的迅速发展才使语音识别从实验室走出并开始实现商业落地。近年来语音识别准确率得到了极大的提升。2016年11月,搜狗、百度、科大讯飞相继宣布其中文语音识别率达到了97%(数据来源:亿邦动力网)。

语音识别作为人工智能核心技术之一,目前各科技巨头都将其作为切入点,积极布局人工智能。在智能语音领域方面的布局,科技巨头和初创公司的打法有所差异,具体表现为:

科技巨头:围绕主业,开放应用平台,同时通过收购、战略合作等手段补齐短板,打造人工智能生态圈;

智能语音成熟公司:基于原有技术优势,从单一技术厂商向人工智能产业生态构建者进军;

其他创业公司:深耕细分领域,重点布局家居、车载、机器人。

2、自然语言处理技术赋予机器认知能力

人类语言与计算机之间相互作用的研究领域称为自然语言处理(简称NLP)。 它结合了计算机科学、人工智能和计算语言学。开发人员利用NLP可以组织和构建知识,执行自动总结、翻译、命名实体识别、关系提取、情感分析、语音识别和主题分割等任务。目前,中国在自然语言处理领域的专利数量占比仅次于美国(资料来源:《全球人工智能专利资源发展概况》)。

自百度诞生之日起,中文分词这种的基础NLP技术便已经应用于搜索引擎。自然语言处理专家王海峰博士加入百度后对百度NLP工作进行了重新梳理。在加强分词、专名识别、query需求分析、query改写等传统方向的同时还拓展了机器翻译、机器学习、语义搜索、语义理解、智能交互、深度问答、篇章理解等新的技术方向。在他的带领下,NLP团队已经包括了算法开发、系统实现、学术研究、语言学、产品设计和架构、前端、客户端工程开发等多领域的人才,全面支持百度各种产品应用。(数据来源:百度百科)

历经17年的积累,2013年百度首次开发了NLPCloud平台,拥有 20多种 NLP 模块,每天的请求数超1000亿次,每日流量达数十亿次,已为超2万个企业和开发者提供百度翻译API,应用于百度搜索、Feed、O2O和广告等业务与产品方向。此外,百度还提供语音翻译及利用字符识别技术进行的图片内容翻译。(资料来源:CSDN)

在Baidu Create 2017上,百度开放了基于百度自然语言处理技术的理解与交互技术平台UNIT(Understanding and InteractionTechnology Platform),包括词法分析、情感分析、机器翻译、语义表示、语言模型、语义相似度等技术,为机器赋予“理解”能力。

UNIT基于百度海量的搜索数据、问答数据、网页数据等为对话系统的开发提供大数据保障,为每个不同的对话任务智能推荐相关数据,以供进一步的训练数据标注。并首次推出理解与交互“对话训练师”模式让普通开发者乃至零编程基础的人都能成为训练师。对话系统通过与训练师对话便可不断完善系统功能、提升对话能力。目前,UNIT已经应用于车载、客服、家居等场景。

全方位视频理解技术使机器不仅“会看”,还会理解

在Baidu Create 2017上,百度发布了全方位视频理解技术,包括视频分割技术、语义理解、人脸识别及机器人视觉等。

• 视频分割技术是无人驾驶/机器人的核心技术,对数据和精度要求很高,需要像素级别的输出信息和更多的视频训练数据。目前百度具有世界第一个室外语义分割RGBD视频数据集。(资料来源:搜狐科技)

• 语义理解技术包括视频封面选摘技术、视频分类/标签技术、视频智能对比技术、视频审核色情识别技术、视频公众人物识别技术、视频结构化分析技术,并将上线视频细粒度识别技术。

• 人脸识别:百度已经运用200 万人的2亿张照片进行人脸识别基础模型训练,实现人脸检测、人脸对比及人脸查找,并已应用于百度魔图、百度网盘、百度识图等产品中。此外,百度人脸识别还具备活体识别功能。(资料来源:新浪科技)

• 机器人视觉开放平台由摄像机IMU模组、SLAM、障碍物检测、地图重建、语义识别5大部分构成且已开源。其中,SLAM采用双目视觉惯性算法,定位结果延迟小误差低;云端API提供人脸识别、物体检测和字符识别功能。(资料来源:光明网)

计算机视觉是最主要的人工智能基础技术之一,主要包括信息采集、模型训练及识别。目前,计算机视觉在图像识别和人脸识别两大领域的准确率都已经超过人类极限。计算机视觉技术主要包括图像及视频处理、人脸识别、文字识别、智能监控等,其中人脸识别已经广泛应用于安防、公安、金融等行业。在计算机视觉领域,我国与国外的差距较小。2014年3月,香港中文大学汤晓鸥教授团队的GaussianFace算法在人脸识别数据库LFW上准确率达98.52%,在全球首次突破人眼识别能力(数据来源:光明日报)。目前,中国在计算机视觉方面的专利已跃居世界第一,占当前全球专利公开数量的55%,并且增长势头强劲(数据来源:《全球人工智能专利资源发展概况》)。

今年1月,百度研究院成立AR实验室,同时推出AR开放平台DuMix供开发者及内容创作者使用。在Baidu Create 2017上,百度发布全新DuMix AR开放平台,提供基础的AR技术,包括AR SDK、内容制作工具、云端内容平台和内容分发服务4大部分:

Dumix AR SDK:支持本地识别跟踪、语音交互、SLAM等20多项功能,帮助移动APP集成AR。

内容制作工具:开发者可以使用素材模版库和制作工具开发AR内容,也可以使用百度认证的内容供应商体系,快速为开发者提供全面专业的内容制作服务。

云端内容管理平台:通过云平台方式,提供内容管理、更新,渠道管理,数据统计等多种内容管理服务;

内容分发服务:百度还会在手机百度APP、搜索/Feed等百度系入口上提供优质AR体验的分发服务,通过Dumix AR制作和接入的AR,将可以触达百度的亿级用户。



未来,DuMix AR开放平台将通过打通手机百度上内容分发渠道,提供更多场景的AR行业解决方案,赋能各行各业,共同探索AR价值。

、风险提示

人工智能仍在探索阶段,各家技术方向并不完全趋同,又涉及整个产业链的融合能力,因此,最终落地形态和成熟的商业场景存在较大的不确定性。

关键词: 太平洋 之路 人工智能