声明:陕西11选5走势图 部分内容均来自互联网网友共享或转载其他热门文章,若侵犯您的权益,请及时与我们联系。
您现在的位置:主页 > 人文社科 > 历史 > Google神经陕西11选5走势图网络可以隔离视频中的单个音色

Google神经陕西11选5走势图网络可以隔离视频中的单个音色

作者:彩票出号绝密公式 发布时间:2019年12月19日 浏览: 895

如今,计算机科学的最前沿就是让计算机更像人类。使用神经网络帮助机器识别物体,玩游戏,甚至以更现实的方式说话。在机器学习魔术的新壮举中,GoogleResearch开发了一个系统,可以复制鸡尾酒派对效果,让您的大脑专注于拥挤的房间内的单个音频源。结果令人印象深刻,几乎令人担忧。

谷歌称这种技术为“倾听”陕西11选5走势图,因为它通过多个扬声器观看视频以分割音频-它使用听觉和视觉信号,就像你的大脑一样。这些视频也没什么特别之处。它们只是一个包含多个@Anson@SEO@人的单一音频轨道的视频。

为了构建一个能够实现这一目标的工具,Google开始提供100,000个高质量讲座样本和来自YouTube上。工程师们切断了视频,以清晰可见的扬声器和没有背景噪音的声音。这使得GoogleResearch拥有2,000小时的视频,其中包括一个人(他们称之为AVSpeech数据集)。诀窍是使用这些干净的样品来制作假鸡尾酒派对。研究人员合并了视频,因此有多人在讲话。这就是谷歌用来训练其神经网络的数据。

像许多其他GoogleResearch突破一样,这一点使用了卷积神经网络。网络的输入包括扬声器的视觉特征以及视频音轨的频谱图。通过处理视频,网络学习如何将视频分成每个扬声器的时间频率掩模。输出掩码与音频输入频谱图匹配,以生成单独的音轨。

通过完成培训,Google在新视频上释放了网络。正如您在Googles示例中所看到的,这非常有效。LooktoListen模型可以识别来自扬声器的音频,并过滤掉其他所有内容。这项技术可用于视频会陕西11选5走势图议,陕西11选5走势图助听器和视频监控。

在最后一点,这项技术可能非常强大,以至于不难想象滥用。随着未来的速度和准确度的提高,观察者可以在拥挤的街道上挑选你的声音,找出你说的话。没有迹象表明谷歌有任何意图这样做,但它并不是唯一一个进行神经网络研究的人。

0
赞一个
关键词: @Anson@SEO@
推广链接:http://www.0662gz.com/renwensheke/lishi/201912/7208.html
分享到: 0