魔珐创始人柴金祥:用AI技术开启一场虚拟世界的科技革命

来源:江西网络广播电视台 编辑:华瑞 发布: 2019-12-11 09:27
AI表演动画技术中,真人驱动表演 在虚拟内容制作和虚拟IP打造层面,我们能够实现各类虚拟数字人的制作、运营和变现,比如打造虚拟主播、虚拟主持人、虚拟模特、虚拟老师等,下面是一些魔珐与客户合作的案例: 魔珐制作无限王者团的守约代言的Meco果汁茶广告 魔珐打造的虚拟模特 魔...

2019年12月6日-8日,世界创新者年会(WIM)于北京举办,魔珐科技的创始人兼CEO – 柴金祥博士入选2019年度中国科学企业家Top 30,并在“科学企业家论坛”上发表主题演讲。以下为演讲内容:

1

新时代的开启:过去是互联网+X,未来是虚拟数字人+X

很多朋友经常会问我们为什么要做虚拟数字人?其实这是在问我们为什么这么相信“虚拟数字人+X”未来会像“互联网+X”或者“移动互联网+X”那么大的一个事情。如果用一句话来介绍魔珐在做的事情,我想说我们打造的是虚拟数字人的基础设施,说白了我们想在虚拟世界创造人。

事实上,在过去的20年中,所有的互联网公司、移动互联网公司都在做的一个事情就是 -数字化我们这个世界。那从2000到2010这一段时间,在整个互联网时代,我们主要是通过文字去描述这个世界。大家可以看到每一个公司都有自己的网站,很多人会有自己的网页,还有各类新闻门户网站例如新浪、搜狐等等,但这个时候你是用一维的文字去描述这个世界,无法实现多姿多彩的展示。而你会发觉我们要去互联网上找信息的时候,最重要的一个信息处理技术就是搜索,所以在那个时代诞生了谷歌、百度等全球顶尖的互联网公司。

到了2010年左右进入移动互联网时代,智能手机出现了。人们描述世界的信息载体也发生了变化,大家可以非常自如、简单地拍图片、拍视频,相应的现象级产品如Instagram、抖音、快手等也就应运而生了。当信息维度发生了变化之后,人们对于信息处理的技术也发生了变化。比如说我们现在通过手机录制了一段视频,可以为视频进行一些特效处理比如美颜或者添加各类特效,或者对图片使用一些滤镜,都需要相应的图像信息处理技术。这个时代的信息处理也催生了一些领先的人工智能技术公司,比如商汤在做图片识别与感知,科大讯飞在做语音识别与合成。这是一条线,让内容实现升级,从一维到二维,展示维度比之前更高了,信息也更多了。另外一方面我们会发现信息交互的方式也发生了变化,其实这时候已经不是简单地通过搜索找到相应网站或者网页的信息,信息交互变成了打开和使用某个特定的App。但是信息太多了,不仅仅是你去找信息,信息也可以去找你。那么这个时候,出现了另外一个关键的信息处理技术,叫做推荐技术,是给信息打标签、再把它推荐给标签化的用户。

如果我们再往前看,大家都在寻找下一代的计算信息处理技术是什么呢?或者说下一个平台的核心技术是什么?有人说是人工智能,有人是说AR、VR,也有人说是5G加物联网。那这个时代有另外一个特点,就是信息的纬度又进一步升级了,特别到了AR、VR以后,就需要三维的信息载体。我们今天看到的影视动画已经是三维的,除此之外,我们还需要实现类似游戏的三维信息实时交互。同时,因为三维的信息内容出现了以后,相应的信息处理技术也需要实现升级,那这时候就会出现三维的视觉感知、视觉合成技术。另外一个层面,从信息交互的方式来看,其实信息交互的载体也会发生相应的变化。我们会认为到那个时候的信息的交互载体肯定不是App,更不是网页或者网站,可能就会变成一个可实时交互的智能虚拟数字人。打比方说,你现在搜索魔珐科技,找到的是魔珐的网页,或者关于魔珐的文章、视频。 然而到了虚拟数字人时代,搜索魔珐科技就是咨询魔珐的虚拟数字人,TA可以实时与你进行交互,同时她还能够图文并茂地为你讲述和呈现所有关于魔珐科技的事情,通过文字,图片,视频, 图表等等方式。

所以我们是真的相信在新的时代,三维内容感知和合成、虚拟数字人会成为下一个核心技术。

虚拟世界是现实世界的镜像,虚拟数字人是镜中的我们

我们刚才描述了未来虚拟世界的趋势,那三维虚拟数字人到底是什么呢?我们想要在虚拟世界创造的到底是什么样的人呢?

如果说虚拟世界是现实世界的镜像,那么虚拟数字人就是现实人的镜像。在现实世界中通常会有三类人:一类人是娱乐你的人,让你的生活能够充满乐趣,大家看到泛娱乐行业,如直播、短视频、影视剧、综艺、线下表演、真人游戏等。对应的在虚拟世界就会产生相应的X,也会有虚拟主播、虚拟短视频、影视动画、虚拟综艺秀、虚拟脱口秀主持人、游戏等。

现实世界中第二类人是为大家提供信息服务、让大家生活更方便的人,例如现实世界的客服、中介、导购、导游、律师等职业都是提供这样的信息服务,那对应到虚拟世界中就会有虚拟的客服、中介、导购、虚拟的导游和律师等职业。这时候的挑战更大,因为你需要提供实时可交互的智能虚拟数字人服务。

最后一点就是大家最终的梦想,希望每一个人将来在虚拟世界中都能够永生,就像头号玩家一样,也许过了50年,你的虚拟分身在虚拟世界里还是那么的年轻,还是能够跟其他人进行实时互动,在虚拟世界中玩耍。

我们非常相信虚拟数字人+X将来会是一个很大的事情。反过来大家也会问,我们现实世界有这么多人,为什么还需要虚拟数字人来做这些事情呢?

从整体来说,我们会觉得虚拟数字人相对真人有以下三点优势:

第一点,虚拟人的形象可以是完美的,性格、人设、技能都能够被完美打造。TA可以唱歌唱的很好,跳舞跳的很好,同时也许还能在天上飞,做各种炫酷的事情。这点在娱乐行业显得尤其重要,可以打造无所不能的虚拟明星。

第二点,是虚拟人的商业价值,我们认为TA具有很强烈的规模化和可复制化的能力。对于现实世界的明星来说,可能会变老、人设也可能会崩塌,而虚拟明星这些问题都可控。另外,虚拟数字人不需要睡觉、也不会觉得疲倦,可以7x24小时的工作,也不受工作地点的限制。

第三点,在现实世界中有X,各种各样的行业,将来在虚拟世界也会出现各种各样的行业,应用的场景将非常的广泛。大家如果对国外的娱乐行业比较熟悉的话,也会知道近些年出现了一些虚拟偶像,比如说在Youtube上非常有名的绊爱酱,Instagram上的虚拟模特Lil等。虚拟明星其实跟真人明星是一样的,可以变现,也可以拍摄MV、电影、广告、直播、参加线下活动等。比如,魔珐和腾讯的王者荣耀合作,制作了国内首个虚拟广告TVC,无限王者团的守约代言的Meco果汁茶广告。

魔珐打造虚拟数字人的“轮子”,用人工智能技术赋能全行业

对标现实世界,现实世界的人有各种各样的属性,比如说有形象、会表演、能说会道、能听懂、能看到、也能被看到。而这些事情要对应到虚拟世界去做,其实是非常难的。因为一切属性对于现实世界中的人来说都是与生俱来的特征或能力,那么每一项对应到虚拟世界,都意味着得有一个技术的支撑。比如说有形象,这属于视觉合成、计算机图形学的三维建模;会表演是属于计算机动画的技术;能说会道属于语音合成;能听懂属于语音识别、自然语言理解;能看到是属于视觉感知;能被看到是渲染等。那么创造虚拟数字人,把三维的人在这个虚拟世界中数字化,这其中需要驱动的“轮子”。

但每个行业不可能自己去造驱动的“轮子”,魔珐想做的事情是在虚拟世界为“创造虚拟数字人”提供一些“轮子”,即能够成为一个平台型的公司。而虚拟世界的计算都可以在云端做,特别在5G时代来到了以后,魔珐能够用人工智能技术在云端赋能所有的技术模块,当然我们会一步一步、一项一项去做。

在已有的存量市场上,比如影视动画、游戏等行业,这一切“虚拟化”的事情魔珐都在做,基于我们全球首个自主研发的全栈式端到端AI表演动画技术以及智能建模、智能绑定、集群渲染技术等等。传统动画是一帧一帧画的,一个动画师最多一天能画一秒钟的高质量动画,而运用魔珐的技术,我们把动画制作变成了一个表演,就像拍电影、拍电视剧、短视频一样的工作,所以能极大地提升制作质量和效率,帮助行业产业链生产力得到提升。而表演动画是魔珐打造“虚拟数字人+X”生态的一个切入点,我们在业务层面上会聚焦两个点:一个是泛娱乐行业,最主要的是虚拟内容的制作和虚拟IP打造运营;另外一个是打造全智能虚拟数字人。

AI表演动画技术中,真人驱动表演

在虚拟内容制作和虚拟IP打造层面,我们能够实现各类虚拟数字人的制作、运营和变现,比如打造虚拟主播、虚拟主持人、虚拟模特、虚拟老师等,下面是一些魔珐与客户合作的案例:

魔珐制作无限王者团的守约代言的Meco果汁茶广告

魔珐打造的虚拟模特

魔珐实现高迪安9·9真爱节艾琳娜虚拟主持人全息实时线下互动

同时,魔珐还能够打造实时交互、即时渲染的全智能虚拟数字人,应用于服务政府行业的智能政务助手、服务金融行业的虚拟理财顾问、虚拟客服等。

魔珐为光大银行打造全智能虚拟智能助手 – 阳光小智

1

魔珐全智能虚拟数字人——“虚拟员工Ada”

带领世界领先团队,打造虚拟数字人的基础设施

为什么这些事情只有魔珐最适合来做?就我个人的背景来说,从2000年去美国念书开始就一直在三维视觉的感知与合成的领域进行研究,尤其是在围绕人的三维人体运动和表情的感知、建模、捕捉、合成等技术上,是全世界在这方向发表SIGGRAPH/TOG论文最多的人,包括我自己的博士论文、包括博士毕业了以后去当教授,陆陆续续在美国和中国带了14位博士,在美国有8位、在中国中科院4位、清华1位、中科大1位,我们整个15位博士一直在做这一个方向,所以我们这方向是有非常多的积累。而且三维的视觉感知跟二维是不一样,这一方面的人才一直是比较稀缺的,所以集合了15位博士近20年的积累,才能够实现今天我们所看到的魔珐在做的事情。

最后的两个视频,一个是用普通的RGB摄像头来实时感知、捕捉人体的三维人体动作,这个事情对于十年前的我来说是不可能在10年内实现的,但是今天我们做到了;另一个是基于表演的三维人脸面部表情和眼神的实时动画驱动,也是用一个普通RGB摄像头就能实现。

1

基于单RGB相机,进行实时人体三维运动捕捉

我们相信虚拟数字人+X,我们相信人工智能+三维的视觉感知与合成技术,能够赋能虚拟数字人+X行业。我们相信在不久的将来可能每一位学生都会有一位虚拟老师7x24的陪伴,可能我们有一天会发现这世界上最大的明星是一位虚拟明星,可能我们也会发觉这个世界上99%的客服已经是虚拟客服。我们相信这一天肯定会到来,正如我以前在学校一直在讲的一句话:技术改变世界,发论文去改变世界这是第一步,更重要的是用技术去撬动这个行业,去赋能这个行业,这就是魔珐今天在做的尝试。

提示:本页面内容及观点仅供传递信息用,不构成任何投资或具体行为建议,本网站对所引用信息的准确性和完整性不作任何保证。如有侵权,请联系邮箱heimalaodou@163.com

猜你还想看:

极速快乐8 极速快3 荣鼎彩 幸运飞艇官网 澳洲幸运10开奖结果 左右棋牌 三分快3 欢乐生肖 福建11选5 财神汇彩票计划群