1. 首页 > 12星座 > 文章页面

人工智能技术有哪些突破性进展(人工智能的技术突破及其近期的实业化将引发程序化业务)

okx

币安 Binance,注册即可获得100 USDT的交易费用返还

全球交易量最高的加密资产交易平台,买比特币就上币安!

APP下载   官网注册
十种全球人工智能领域突破性技术,智能时代将彻底走入我们的生活

大家好,关于人工智能技术有哪些突破性进展很多朋友都还不太明白,今天小编就来为大家分享关于ai技术看前世的知识,希望对各位有所帮助!

本文目录

入门| 文本摘要自动生成技术的前世今生人工智能技术有哪些突破性进展入门| 文本摘要自动生成技术的前世今生

当我们点开某个网站或新闻APP时,经常能看到这样的标题:“14亿人都不知道的真相,历史的血泪……”、“删前速看!XXX视频流出”等,但是点进页面时往往会发现,都是标题党!而时间和流量却在悄悄溜走。

盘点2018年人工智能技术突破性进展

如果这时候有方法能够先阅读新闻,再提炼出关键内容,那么将大大节约时间并精准地找到我们需要的内容。而这就是图鸭君此次会介绍的技术—— “文本摘要自动生成”技术!

文本摘要充斥着我们生活的方方面面,从新闻关键词的提炼到Google、百度等搜索引擎的结果优化,真正实现搜索中的所见即所得,“Smarter& Faster”。

主流的文本摘要方式

目前主流的文本摘要自动生成有两种方式,一种是抽取式(extractive),另一种是生成式(abstractive)。

抽取式顾名思义,就是按照一定权重,从原文中寻找跟中心思想最接近的一条或几条句子。而生成式是计算机通读原文,在理解整篇文章意思的基础上,重新生成概要。

抽取式摘要目前已经相对成熟,但抽取质量及内容流畅度均差强人意。伴随着深度学习的研究,生成式摘要对质量和流畅度都有很大的提升,但目前也涉及到原文本长度过长、抽取内容不佳等问题的限制。

文本摘要的发展概况

抽取式摘要是一种比较成熟的方案,其中Text rank排序算法以其简洁、高效的特点被工业界广泛运用。大体思想就是先去除文章中的一些停用词,之后对句子的相似度进行度量,计算每一句相对另一句的相似度得分,迭代传播,直到误差小于0.0001,再对上述方法得到的关键语句进行排序,即可获得摘要。抽取式摘要主要考虑单词词频,并没有过多的语义信息,像“猪八戒”、“孙悟空”这样的词汇都会被独立对待,无法建立文本段落中完整的语义信息。

生成式文本摘要主要依靠深度神经网络结构实现,2014年由Goolge Brain团队提出的Sequence-to-Sequence序列,开启了NLP中端到端网络的火热研究。Sequence-to-Sequence又称为编、解码器(Encoder、Decoder)架构。其中Encoder、Decoder均由数层RNN/LSTM构成,Encoder负责把原文编码为一个向量C;Decode负责从向量C中提取提取信息,获取语义,生成文本摘要。

但是由于“长距离依赖”问题的存在,RNN到最后一个时间步输入单词时,已经丢失了相当一部分信息。此时编码生成的语义向量C同样也丢失了大量信息,就可能导致生成摘要准确性不足。

Bahdanau等人在14年发表的论文《Neural Machine Translation by Jointly Learning to Align and Translate》中,第一次将Attention机制应用于NLP中。Attention机制是一种注意力(资源)分配机制,在某个特定时刻,总是特地关注跟它相关的内容,其他内容则进行选择性忽视。就像下图,在翻译“Knowledge”时,只会关注“知识”,这样的对齐能让文本翻译或者摘要生成更具针对性。

RNN/LSTM单元下每个词是按照顺序输入网络的,会记录文章的序列信息,所以大多数NLP任务,都是采用的RNN架构。但是这种架构限制了网络训练及摘要生成的速度,因为RNN必须一个个输入、一个个生成,无法进行并行计算。2016年Facebook AI Research(FAIR)发表了《A Convolutional Encoder Model for Neural Machine Translation》,对Encoder部分采用似乎不擅长处理序列信息的卷积网络(CNN)来实现,结果在翻译、摘要任务中,也达到了当年的最高水准;

2017年5月,还是FAIR,发布了《Convolutional Sequence to Sequence Learning》,第一次实现Encoder、Decoder均采用CNN单元,使网络在训练阶段能够并行计算,效率进一步提升。同时引入了Multi-step Attention,相比于之前只在最后一层生成翻译时往回看,多跳注意(Multi-step Attentio)的优化点在于Decoder阶段生成每一层的语义向量时都会往回看,进而提升了准确度。同时还有一些其他的trick:像引入单词的位置信息、残差网络、计算Attention时对高层语义信息和低层细节信息兼收并取等。最后在生成翻译和摘要时,速度相比之前最快的网络,提升了近9倍!同时在WMT-14英德、英法两项的单模型训练结果中,BLEU得分达到了25.16、40.46,英法翻译任务也是迄今为止得分最高的模型。

时隔一个月,17年6月,Google团队发布了名为《Attention Is All You Need》的文章,即不用CNN和RNN单元,只用Self-Attention和Encoder-Decoder Attention,就完全实现了端到端的翻译任务,也是在WMT-14英德、英法翻译任务中,BLEU值达到了28.4和41.0的高分,因为同样可以并行计算,模型的训练及生成速度也有所提升。Self-Attention相比于之前的模型更加关注句子的内部结构,也就是word-pairs的信息,附图是是论文中Attention可视化的结果,可以发现仅在源文端,模型便学习到了“making more difficult”的word-pairs信息。

同理对目标端,模型也会单独学习句子的内部结构信息。之后利用Encoder-Decoder Attention建立源文和目标词组、句子的对应关系。相比于FAIR的卷积模型得到很高层才能看到句子的完整信息,Self-Attention在第一层便巧妙地建立了每个词和整个句子的联系,同时位置编码采用三角函数的相对位置法表示,理论上可以泛化到训练中未见过的更长长度句子的翻译中。目前Self-Attention仅用在了翻译任务中,但这样的思想,在文本摘要自动生成的任务中,也是可以参照的。

总结:

从传统的Text rank抽取式,到深度学习中采用RNN、CNN单元处理,再引入Attention、Self-Attention机器生成摘要的方式,这一步步的转化使得文本摘要生成的方式跟人类思维越来越像,先理解后提取概要。与此同时生成的摘要效果,也常常让我们惊艳。

但文本摘要自动生成依然还有很多难题,如段落太长,那机器对于段落的理解时间就会更长,而过长的时间会导致机器对于段落信息的记忆损失;而深度学习非常依赖有标签的样本,标注工作也会是一笔非常大的开销等等,这些都是需要大家去解决与克服的问题。

简而言之,文本摘要自动生成技术是一项非常具有前景但也是极具挑战性的技术。

人工智能技术有哪些突破性进展

【2022,风暴里的AIGC元年】2022年12月16日,Science杂志发布了2022年度科学十大突破。年度热词——AIGC赫然在列。沿着我们熟悉的PGC、UGC等概念,AIGC指的是利用人工智能技术生成内容,即内容生产者从真人变成了AI。过去的一年里,火遍全网的AI绘画,震惊世人的ChatGPT,我们普通人都可以体验的各种明星级产品的问世,使得AIGC强势破圈。其实早在年初,就有行家预测:2022年是AIGC元年(当时我们用得更多的另一个词是“生成式AI”)。今年3、4月份的时候,也有前同事想拉我入伙,向我介绍他的“虚拟数字讲解员”的商用项目,并向我描述生成式AI解放生产力之种种蓝图。但无奈于技术关卡和实现资源等难题,最终只得作罢。在困扰我们的种种技术难题当中,数字人所搭载的合成AI语音一直是我的阿喀琉斯之踵。出于我的职业惯性,我希望数字人能有自然流畅的、接近真人的嗓音,这在信息传播过程中才更富有亲和力和说服力,但现有的合成AI语音完全无法满足我的需求。在这一波AIGC浪潮里,虽然我已下船旁观,但我依然一直关注着前沿技术的发展。在2022年的最后一个月,作为首位签约TME的超写实虚拟偶像鹿晓希LUCY横空出世,并接连发布了三首不同曲风的原创单曲。当前浏览器不支持播放音乐或语音,请在微信或其他浏览器中播放目的地音乐:鹿晓希LUCY - 目的地我该怎样去形容最初听到LUCY时的惊喜呢?我一度反复地确认:这里头,真的不是藏着个“中之人”吗?(注:中之人,指藏在虚拟主播身后、为VTuber提供声音来源的真人工作者)这明明是如假包换的真人歌手嘛!这怎么还会是AI啊?‌今天,我便和大家聊聊,在2022这一“AIGC元年”里,推出的又一颗璀璨新星:首位拥有“唱片级智能歌声”的虚拟偶像——鹿晓希LUCY。【虚拟歌姬的前世今生】AI歌手其实并不是什么新鲜事。2004年,YAMAHA便正式推出了电子歌声合成软件,输入音调和歌词,就可以合成类似人类声音的歌声,这就是大名鼎鼎的VOCALOID,国内俗称的“V家”。合成语音的原理听起来很简单:通过采集大量的人类声音样本,以神经网络合成技术,制作成音源库。玩家通过设定参数调用里头的声音,AI这就唱起歌来。在此基础上,诞生了我们熟悉的初音未来、洛天依、星尘等虚拟歌手,这都是来自于VOCALOID的技术。但,这些虚拟歌手,只要一开嗓,我们就知道——这是假人啊。尽管VOCALOID自初代发布以来,一直都在更新迭代,但依然有明显的“电音感”和“机械感”。人声是所有音源里最最难模拟的东西。我们可以轻易地在midi里模拟出三角钢琴的自然共鸣,也可以模拟出木吉他弦在指尖摩擦的声音,但人的肉嗓却是这个星球上最精密、最神奇的发音体,哪怕你把“开口度”、“明亮度”、“性别度”等参数列了个十几项,也仅仅是模拟人类唱歌的基础框架而已。所以,V家的应用范围大都仅限于二次元——反正我和三次元井水不犯河水。若干年前,我在担任女团制作人的时候,向某些二次元作者收歌,他们倒也会用VOCALOID去作为Demo歌手做范唱。收到这些Demo的时候,我的内心OS是:求求你找个妹子唱吧,V家,老板们听不懂的啦……过去数年,随着AI技术整体的提升,虚拟歌姬也有了长足的发展。以小冰为代表的x studio凭借微软的金漆招牌一时风头无量,但依然逃不开其电音质感;异军突起的ace studio倒是有越来越多的朋友使用,虽然还是能一耳朵便听得出这是AI歌手(音色气息还是缺了变化),但你若是一个作曲者/编曲人,这已经是一个相当得力的能帮你唱demo的歌手朋友了。但在鹿晓希LUCY的面前,这些技术都显得像是上个世代的产物。用各位都能听得懂的比方,LUCY就像是唯一领跑的次世代主机,把PS4/ XBOX 360等统统抛在后头。【鹿晓希LUCY是怎样炼成的】我相信,每一位听到LUCY的朋友都会惊讶于其革命性的声音表现力。LUCY是真正属于次世代的AI歌手。在现已发布的三首单曲当中,LUCY的声音表现自然、流畅,没有半点“机器嗓”的不适。《叠加态少女》里,在这首爽朗的Teen-Pop里,LUCY展现自己的年轻无敌,用充满了弹性和跳跃感的音色去营造19岁少女的勇敢无畏;《1234你》里,LUCY又化身为一个多愁善感的小女生,R&B对于虚拟歌姬来说总是不易拿捏,因为其音程和气息之间的控制实在是过于复杂,但LUCY的表现依然无可指摘(是一个练习时长至少两年以上的声乐学生的标准了);第三首单曲《目的地》则是带着轻摇滚/urban/City Pop的时尚曲风,这是迄今为止LUCY所发布的单曲中我最喜欢的一首,她的锐利度、冲撞感让我一瞬间感到:这个姑娘,就在我眼前。当前浏览器不支持播放音乐或语音,请在微信或其他浏览器中播放叠加态少女音乐:鹿晓希LUCY - 叠加态少女要让LUCY“活”起来,其所要做的第一件事,是思考这个问题:鹿晓希LUCY的声音究竟是怎样的?。关于这位19岁少女,我们对她的嗓音有这样一个大致的轮廓:她留着齐肩的短发,挑染代表了自由和飘逸;她一定不是一个娃娃音,LUCY有自己的一套,带有一定的中性色彩;她的外冷内热,乍一看是酷酷的女孩,但又保持着可爱;她甚至还带有一点儿“少年感”,这让她可以展现出洒脱、勇敢的一面。在这样的人物画像的指导下,通过 TME天琴实验室LyraSinger引擎,以海量歌手样本数据的人工智能学习下,指向了属于LUCY的声音。为了满足LUCY“唱片级”的声音定位,开发团队特邀行业知名制作人文颖秋担任AI声学艺术监制,基于艺人的定位,提取采样库中多种音色亮点进行配比捏合。相比于其他人工合成语音,LUCY要求以唱片级制作流程规范样本声音标准,及专业歌手录唱标准调试和设定每一个声音细节的处理方式。最终通过精细控制各音色建模单元的比例,并吸取每种源音色的优点并有机融合,在多种比例中不断捏和,甚至对每一句歌词演绎情感及气息的不断打磨,最终生成独一无二的LUCY声纹。这也使得我们现在听到LUCY的声音是充满个性之表达能力的。当前浏览器不支持播放音乐或语音,请在微信或其他浏览器中播放 1234你音乐:鹿晓希LUCY - 1234你“捏嗓”只是LUCY的第一步。第二步是LUCY的演唱技巧。你是如何理解“技巧”这件事的?我听过很多琴童的家长这样问老师:老师,我们家娃,弹琴总觉得没感情,咋整?这时候,老师大都会白家长一眼,然后说:感情?感情是什么?感情就是触键!强弱变化!句子之间的线条!这些全都是技巧!把这些技巧练会了,才有所谓“感情”好吧!对于歌手来说,同样如此。只有强大的技巧(唱功)才能支撑不同的表达。而LUCY显然是我见到过技巧最全面的AI歌手。这来源于两点。其一是LUCY的学习样本库本就是“唱片级”的。在音色样本库采集时,LUCY用的就是上百位专业级歌手的素材。这样的采集学习方式在国内非常少有。大部分开发者基于成本考虑,仅是模拟某位或某几位歌手之演唱。博取百家之长的好处不言自明,在此过程中可最大程度让AI学习到更广泛的演唱技巧,包括气声、混声、弱声、转音等多种表达,以便应对歌曲中不同场景、情绪的需要。同时也因为样本覆盖足够多,在AI的音域表现方面,从女中到女高多重音区之样本模型能提供更多可学习的范例,使得LUCY在高音区的真假音能有灵巧和高密度的回弹(这点我们稍后马上会讲到)。另一个重要的原因是LUCY在开发时所采用的史无前例的智能演唱垂类全新标注标准。数据标注是人工智能的基础。简单地说,数据标注相当于给“投喂”AI准备“饲料”。举个例子:当你在一段声音中标注“这是气声”,重复1000次不同的片段,AI在第1001次的时候便“学会了”气声的正确用法。数据标注是构建AI 歌手的基础力量,通过海量的已标注数据,AI才能逐渐学会怎么唱歌。如果标注能够越细致,那自然最后声音的呈现也能越丰满。这一次,LUCY的数据标注数量级是国内技术的佼佼者,其标注样本精细到毫秒级,事无巨细地把气声、真假音转换等多个演唱技巧维度统统标注好,以此最大程度上还原每一个人声演唱技巧。如此双管齐下,使得LUCY在音乐技法模型的能力,在广度和深度方面,都代表了次世代之水准。下面,我们不妨来细听下现已发行的三首单曲,直面感受LUCY音乐领域的强大“天赋”:《叠加态少女》:作为一首主打青春主张的Teen Pop,LUCY在这首歌其实只需要做好一件事:把她的朝气、勇往直前呈现出来就好了。说着简单,但如果没有足够声音强弱表现,这就真的是机器人唱法了。开头第一句,“伴着日落行驶向快乐”,其中“乐”字一上来就巧妙地秀了一把真假声无缝转换;“没有终点的终点更酷”,如果“酷”字把它给唱实了,这就逊毙了,此处的弱音也处理的异常平滑。进入副歌后,是一个强弱交替的重音强调唱法,每一个重拍处都要求着重强调,并在非重音下加入混声和气声,这是一个很高段位的演唱技巧,也是我们之前所说的“高音区的真假音快速回弹”能力,LUCY完成的同样精准自然。而整首歌最高音处唱到C5,基于超强引擎的全音域生成能力,依然在混声的时候合成除了高保真的声音表现,这实在是令人惊讶。《叠加态少女》高音片段《1234你》:这首浪漫的R&B抒情曲,考验着的是发声的细节,慢歌里特别一不小心就容易露馅。主歌时,LUCY有一些故意pitch有瑕疵的地方,“不小心塞满抽屉的秘密”,你仔细听,其实不是100%准的,但这种呼吸感恰恰又是真人歌手情绪最容易流露之处。在歌曲里的大量转音部分,如“哪怕生活其实不太识趣”之“趣”,一个字里连转了五个音,LUCY的声音也不像是同类型产品那种明显的“划线感”。以及可以留意这首歌的气口,尤其是副歌部分,LUCY每一个轻微的换气动作,这种自然的呼气吸气,来源于LUCY毫秒级的呼吸采样学习,你说谁能识别出来,这是AI?

因作品本身的乐队感很强,LUCY唱起歌来走路有风。此处可特别留意的是LUCY因为在这首歌里用了更多的真声演唱,降低了气声的使用比例,而发音也显得更为短促有力。AI不仅在参数上进行了调整,更直接导致了LUCY有另一种唱腔和情绪的表达。“唱商”,这是真人歌手才具有的本领,在过往所有的AI歌手中我都没有见到过。LUCY可谓独一家,是一个拥有音乐审美和判断的超强AI歌姬。

如上所述,鹿晓希LUCY是当前国内独一档的AI歌手存在,无愧于“唱片级发烧AI歌手”的定位。当然,LUCY目前所展现出来的领先技术也是建立在同行业无数探索者经年累月的技术积累,而当前虚拟人/数字人的领域中,竞争者层出不穷,技术也将不停地迭代。LUCY会在多长的时间里保持业内天花板的领先地位、并在此期间能够干成怎样突破性的创举(无论是商业应用或是其他异业合作),都值得我们持续观察。【LUCY能为我们带来什么?】以假乱真——一言以蔽之,这是鹿晓希LUCY当前呈现的状态。于是,我们能看到鹿晓希一系列高调的动作,诸如以首位“超写实虚拟偶像”的身份签约腾讯音乐,并收获了一众三次元歌手们的出道贺词,这实在是太写实了。如今的鹿晓希LUCY还是一个被保护的、“封闭状态”下的虚拟歌姬,更接近传统唱片公司/经纪公司打造下的超级新人。如出道之时便官宣与ELLE family展开深度合作,赫斯特中国为LUCY所量身打造的系列时尚大片,以系列时尚单品加身,展现其青春魅力:  

接下来,LUCY也还将作为表演嘉宾在“可口可乐粉丝节- 新年欢聚夜”及“KFC天台跨年派对”上展露头角。作为虚拟偶像而存在的LUCY确实能够获得市场的青睐,除了强调年轻时尚的快销(包括软饮、彩妆、服装)外,许多大牌也愿意加入其中,可见LUCY身上的科技感、未来感仍是品牌彰显态度及市场趋势追逐的热点。

但于我而言,我更关注LUCY依然是她身为目前唯一的可以“以假乱真”虚拟歌姬之业务能力。如果,我是说如果,在不远的将来,若LUCY成为了一个开源的AIGC音乐人,当所有人都可以对其嗓音进行使用,创作属于自己的歌曲的时候,LUCY会不会成为这个星球上最红的歌手?

请别觉得我在说梦话。大家可回忆初音未来刚诞生的时候——初音作为V家的一员,其目的也是为了解决制作人/编曲人找不到歌手的问题。因为这样一个没有气息/音高/风格限制,颠倒人类人声认知的“容器”,创作者开始了彼此的狂欢,其中甚至诞生了米津玄师这样写歌从不按常理出牌的鬼才。而当能够制作动画的MMD(MikuMikuDance)出现后,初音不再只是一个平面形象,而是可以跟着音乐舞蹈的3D动画,这让初音不仅成为音乐创作者、更是多媒体创作者的共同纽带。随着弹幕视频网站等新兴媒介的推波助澜,初音未来更是成为了全球共创的平台。因此,“初音未来之父”伊藤博之才会说:“数字作品是越被使用,其价值越高”,而创作者们在做的事,是“为没有生命的事物注入灵魂”。

对于鹿晓希LUCY来说,这位次世代的超写实虚拟歌姬,她有着超越前辈的多变音色、全面技巧,造就了她完美的拟人表现。所以,她会重新定义AI歌手吗?她会成为人人都爱用的虚拟歌姬吗?她会让创作者们连成一片吗?

The future is already here.

关于人工智能技术有哪些突破性进展和ai技术看前世的介绍到此就结束了,不知道你从中找到你需要的信息了吗 ?如果你还想了解更多这方面的信息,记得收藏关注本站。

机遇与挑战并存的人工智能大风暴
icon

OKX欧易APP,比特币,以太坊交易所

全球顶尖交易所,注册即领最高¥1000元数字盲盒

APP下载   官网注册

联系我们

Q Q:

微信号:

工作日:9:30-18:30,节假日休息

微信