科大讯飞轮值总裁胡郁:实现AI的3个法宝和最大挑战

发布时间:2020-08-11

在近日举行的第五届CCF-GAIR 2020 全球人工智能与机器人峰会上,科大讯飞联合创始人、轮值总裁胡郁博士带来了题为《人工智能的颠覆式创新和典型应用》的重磅演讲。

胡郁主要提到,在感知智能和运动智能方面,目前,人类、机器和动物都处于并列齐驱的水平,而认知智能现在是人类独有而动物和机器做得不太好的地方,也是人工智能最大的挑战。从现在的研究方向也可以看到,自然语言处理、知识图谱等关系到认知智能最核心的方面,深度神经网络并没有给出更大的解决方案。

他认为,2010年科大讯飞做免费的"讯飞语音输入法"时,实际上解决的是鸡生蛋和蛋生鸡的问题,因为没有好的数据就没有好的系统,没有好的系统就没有人会用这个数据,数据没有被用到,就进入恶性循环。

讯飞输入法是遵循"涟漪效应"往前走的,早期用户在输入法效果非常差的时候贡献了数据(早期用户有一些并不是真正使用这个输入法,很多时候只是觉得好玩)。在早期用户不断给系统贡献数据时,系统数据就会不断的提高。随着波纹越来越多,系统误差就越来越小,就像水波纹的振幅一样。当收集到几千万人的数据时,这时候系统性能已经提高到了90%甚至是95%以上。

胡郁提到,在互联网、移动互联网时代都有不同的人机交互方式,比如网页、APP小程序,而今天进入到万物互联的AIoT时代时,基于视觉呈现的语音交互系统会被普遍需要。

演讲后,胡郁接受雷锋网等媒体采访时表示,人机交互将在未来改变人和机器之间的关系,改变流量的入口。在行业方面,越来越多专家系统会起到供应侧改革的威力,因为现在这里面的专家太稀缺了。

最后他表示,在如今的大环境下,自立更生自主创新才是王道,科大讯飞没有拿来主义,最好的应对行业环境突变的方式,就是做好自己的事情。

以下为胡郁在现场的演讲全文:

非常高兴今天有这样的机会。

很多人说自己做人工智能,但是人工智能要有自己的定义,从2013年开始,我们就在研究人工智能到底应该往什么方向去发展,到底人工智能真正的瓶颈在什么地方?我们就推出了对人工智能的分类方法,这个分类方法是怎么分类的呢?

1人类的认知革命:感知智能和运动智能

先看看计算机。计算机被人类发明出现的目的是什么?是要填补人类在计算和存储方面的劣势。人类和动物的祖先在非洲大草原生存下来,算算数和记东西,人类大脑在进化过程当中的能力比较差。

1946年,世界上第一台计算机被发明,主要就是在运算上远远超过人类;然后,随着计算机能力的不断提升,1993年,计算机就战胜了当时的跳棋冠军;2016年,AlphaGo战胜了围棋高手。

但是,这是不是人工智能在所有方面超越人类呢?不是这样。在大规模运算性任务上,人工智能的运算智能这一项已经超越了人类。

人和动物在非洲大草原竞争的时候,能够使他们生存下来的是什么呢?我们把它定义为感知智能和运动智能。

感知智能就是眼观六路、耳听八方。随着人工智能第三次浪潮,特别是深度学习以来,在语音等方面追赶得非常快,感知智能方面还可以利用人没有的传感器,比如激光、无线电波、红外线。

运动智能方面,在几十年的发展下,有了很好的进步。图为德国的乒乓球运动员波尔和库卡(CUKA)机器人,当运动员打出不是那么常规球时,机器人就不知道怎么接了。

总而言之,在感知智能和运动智能方面,人类、机器和动物都处于并列齐驱的水平。

2人类的独特智能:语言究竟有什么魅力?

人类有什么独特的智能呢?

图为最近几年以色列年轻历史学家写的《人类简史》,提到了人类的发展过程。他们发现人类在世界各地两三百万年来都有不同的猿人出现,他们都会用火和工具。

但是,基因考古学告诉大家,现在的人类基因只和非洲智能基因是一样的,也就是说,其他的猿人不是我们的祖先,世上所有人祖先都是非洲猿人。

为什么非洲猿人有这样的优势,把其他猿人灭种了呢?他们提出了非常有意思的观点,就是非洲智人最早通过基因突变掌握了当时猿人和动物都不掌握的技能——语言。语言可以更好描述周围的世界,同时,语言能更好地八卦。

其实"八卦"是人类社会形成更大社群的一个原因,这是非常重要的。因为高级的灵长类动物,一个群只有50头,超过50头必须分家,但是智人可以组织超千人的团队,这样就更有优势。

考古学家把人类的重大的进步定义为人类的农业革命、工业革命、两次科学革命和技术革命之前的认知革命。认知智能包括:语言理解、知识学习和复杂的决策。认知智能现在是人类独有而动物和机器做得不太好的地方。

3实现AI的3大法宝,详解讯飞的"涟漪效应"

从人工智能擅长到人类擅长的,我认为,现在的研究方向也可以看到,自然语言处理、知识图谱等关系到认知智能最核心的方面,深度神经网络并没有给出更大的解决方案。包括周志华教授在前面演讲中提到最近的GPT3,在认知智能方面还没有完全取得突破。

现在研究人工智能道路是什么呢?各种人员有不同的研究方法。

随着机器对人类大脑逐步的了解,他们从大脑学习的东西会加强我们在人工智能方面的研究。但是,为什么说现在人工智能研究在产业界,特别是在大公司里面相对研究院更有优势呢?我们来看看。

我们知道人工智能需要算法、算力和数据,但是,有一条大家不要忽略了,就是数据是如何而来的呢?

原来在实验室里面去收集数据,我觉得是非常难的过程,同时也有假数据,并不能真正训练出来。在建立过程当中,我给大家讲一个故事:涟漪效应。

2010年之前,我们没有中文系统识别人类语言。2010年,科大讯飞当时做了重要的决定,就是做免费的语音输入法"迅飞语音输入法",这就解决了鸡生蛋和蛋生鸡的问题,没有好的数据就没有好的系统,没有好的系统就没有人会用这个数据,数据没有被用到,就进入恶性循环。

我们发现了涟漪效应。

水滴滴到水面过程当中,水面同时泛起波纹吗?不是的,是一点点往外传播的。把水面看成所有的用户,水滴看成人工智能的技术,当这个技术被人类使用时,它是一点点扩散的,人越来越多使用。

前面有些人使用了早期的输入法,那时候的输入法效果非常差,但是他们贡献了数据,而且他们并不是真正使用这个输入法,很多时候只是觉得好玩,他们是一些早期用户。

在早期用户不断给系统贡献数据时,系统数据就会不断的提高。随着波纹越来越多,系统误差就越来越小,就像水波纹的振幅一样。当收集到几千万人的数据时,这时候系统性能已经提高到了90%甚至是95%以上,这样对于剩下所有人,他们用到就是达到人类设计需求的系统。

4"讯飞超脑计划"与"讯飞开放平台"

涟漪效应对于人工智能在当前工业化时代正常应用,是非常重要的概念,很多的系统都是参照这样的方法,用机器自动学习的方法来实现突破的。

在这种情况下,2014年,科大讯飞提出了"迅飞超脑计划",从感知智能到认知智能的突破。这是"讯飞超脑计划"整体的方案,下面是感知智能,包括看到、阅读和听到;上面认知智能包括思考和表达。

在过去3年中,我们投入了非常多精力在核心技术研究。科大讯飞研究院有超过1500人,我们研究领域包括语音、图像、自然语言处理、信息检索等多个方向,在过去3年,超过获得将近30项左右的最高水平国际赛事冠军。

同时,我们还将所有的核心技术通过云计算的方式开源到网络上去,现在通过科大讯飞的人工智能云平台,有138.9万的平台开发伙伴利用我们的技术在开发,而开发的产品的数量达到了86.7万,开放能力包括277项,有超过29亿累计的设备连接到云上使用。

人工智能最重要的认知智能是基于语音和语言的,国内首个也是唯一一个语音及语言信息处理的实验室,和国内认知智能实验室,都是在科大讯飞。同时,获得国家颁布的新一代人工智能平台的称号,就包括了科大讯飞和BAT。

人工智能应用场景有两大方面:

l  交互智能。人工智能应用的交互智能,就是让机器像人一样自然的交互,这里面用到视觉、语音和传感器的技术,各种各样的东西。交互智能,没有上过学的人都可以做到,你到伦敦街头找一个乞丐,给他5英镑,让他买一包烟,这个乞丐会完整无误的执行你的命令,但是他是不懂和不识字的。这种交互智能引起人和机器之前的革命。

l  专家系统。人类有了文字之后,在很多行业形成了大量的知识,在行业里面最稀缺的资源就是专家,最好的医生、最好的老师、最好的检察官和最好的法官,他们都是稀缺资源。希望通过人工智能的学习能力,学到他们专家的知识和经验,最后帮助大众。

5人机交互的历史:互联网、移动互联网、AIoT 3个时代

我们来看看人机交互的发展历史。

在互联网时代,怎么人机交互?通过Windows。如果消费者获得汽车厂商、家电厂商的信息,就通过图形交互界面来浏览网站。那时候每个消费品公司都要做网站,消费者通过PC机访问这些网站。

在移动互联网时代,我们可以看到,人机交互方式变成了触摸交互,而消费者都会通过智能手机去访问APP、公众号、服务号、抖音号、大V等等。

我的问题是,在当前的智能物联网时代,消费者是通过什么样的设备在访问什么样的系统呢?

可以看到,在当前的环境下,语音交互作为主流交互的方式正越来越多地出现,比如说电视大屏、车载屏、智能玩具机器人、智能音箱、智能耳机,甚至是手机小秘书也是出现这样的特点。智能硬件设备有很多,包括智能家电、智能家居和穿戴式设备,用户通过非常多的智能硬件访问什么呢?访问消费品公司所建立的自己人工智能系统。

我们可以看到,卖家电的过程中的智能营销就是人工智能系统,利用自己的大数据和公域流量的大数据进行合作。他卖的产品就是他的家电也变成了智能的和人进行自然交互的家电,空调、洗衣机、冰箱,慢慢具备了跟人交互的功能。售后服务、服务体系也变成了可以和消费者建立自然交互能力的这么一个服务体系。

就像以前大家建网站和做APP一样,现在所有的消费品公司都要做自己的人工智能系统。在这个过程当中,其实人机语音交互有逻辑正确性,因为电脑可以把头脑想的东西表达出来,最自然边界的方式是用显示屏,而人类的眼睛非常的发达,通过观看显示屏来了解这里面更多的信息。

但是大家要注意到,当人要把自己脑袋里面想的东西表达出来,最多的方法是什么?就像我今天在这里用的,只能说出来。但是,你不能用显示屏,因为人没有办法和显示屏建立联系,这就构成了基于视觉呈现的语音交互系统。

6人工智能+应用,改变流量的入口

讲一下"人工智能+应用"。

在疫情期间,人工智能发挥巨大作用,在医疗、教育、翻译场景下,我们产品都帮助这些人员进行很好的结合。

在教育方面,我们采用个性化、智能化的教学,让课堂上的学生听得懂的概率从64%提到85%。家庭作业的正确率从42%到69%。

在政务方面,采用机器自动拨打住户电话,实现了普查,提升了50倍的效率,也在韩国推广这项技术。

在家居养老方面,我们可以通过分析水电、煤气、社区、物业视频数据,发现老人可能出现的异常,再打电话确认,用在社区工作方面发挥了巨大作用,这一点随着智能化建设越来越好。

在医疗方面,迅飞导诊机器人根据自己的病情描述来知道你的病情,再进行导诊。

在智慧城市方面,利用各种各样的大数据(包括摄像头和各类传感器的数据),也包括运营商大数据,一起可以完成疫情防控、经营管理等方面的工作。

总结来看,人机交互将在未来改变人和机器之间的关系,改变流量的入口。在行业方面,越来越多专家系统会起到供应侧改革的威力,因为现在这里面的专家太稀缺了。在教育、医疗、政法、智慧城市方面越来越多。

我也相信将来每个企业、领域和行业都建立自己的人工智能系统,但是并非每个企业都有能力建的,科大讯飞帮助这些企业建立属于自己的人工智能系统,并且将他们的线下流量转化为线上流量,与他们一起成长为将来商业生态当中的控制节点。

我们最终也相信,在中国,特别是在中美关系大的背景下,需要自力更生、需要艰苦奋斗,更需要从底层来创新,推动我们自身的发展。

我也相信在中国,一定用人工智能改变世界,谢谢大家。

来源:雷锋网