教人工智能辨别声音

教人工智能辨别声音

来源:南方都市报 日期:2017-01-22

  

训练人工智能辨别音乐可以帮助它发现复杂数据中的模式。


  玻璃破碎声、狗叫声、婴儿哭声———在电脑的“耳朵”里听来它们都是噪音。新一波的人工智能正在学习如何辨别不同的声音。在图形识别方面,电脑已经超越人类,但除了语音识别之外,一般声音识别对机器而言还是一个全新领域,却同样可以带来很多实际应用,比如危险识别和发布警报。

  砸玻璃的AI公司

  在英国剑桥北郊的一座皇家空军基地隔音飞机库里,克里斯·米歇尔(Chris Mitchell)和他的同事们正挥舞大锤砸玻璃,而这样做是为了给他们的电脑“上课”。

  米歇尔的团队收集了数千块不同大小和形状的门和窗户玻璃,再一块块将它们砸碎,并将各种不同类型玻璃破碎的声音一一记录下来。他们用来砸玻璃的工具也不尽相同,有时候用锤子,有时用铲子,有时用大板砖。米歇尔说,“我们都低估了这活有多累人,最后留下一大堆垃圾,惨不忍睹。”

  欢迎来到人工智能(AI)研究的最前沿。米歇尔是Audio Analytic(音频分析)公司的创始人。这家位于剑桥的初创企业正在教一个机器学习系统识别玻璃破碎的声音。

  不仅是玻璃,这家公司还要教导电脑学会识别其他人类熟悉的声音,比如烟雾报警器的声音、婴儿嚎啕大哭的声音、狗叫声等等。研究人员试图通过这种方式让智能家庭系统学习分辨不同的声音,比如玻璃杯跌落在地上和窗户被砸碎的声音,让它们能够根据声音判断紧急状况,比如在窃贼闯入或孩子啼哭时发出警报。

  在过去几年里,电脑在图形和视觉识别方面已经发展到相当水平。人工智能甚至比人类更擅长识别某些物体,尤其是人脸。但除了语音识别———苹果的Siri、谷歌H om e和亚马逊的A lexa都是为人熟知的语音识别系统———高度精确的声音识别并未得到多少关注。对于大多数机器而言,日常声音都只是背景噪音。

  米歇尔希望改变这一状况。“我们的工作开启了一个全新的人工智能领域,可以称之为人工音频智能,”米歇尔说,“从前在这方面并没有系统性的严肃研究。”

  发现隐藏的模式

  伴随音频分析出现的是新一波专门研究并训练人工智能系统发现声音模式的公司。比如位于柏林的U berchord正在开发一款帮助人们学习弹吉他的人工智能程序。它可以通过听觉判断弹奏者的指法错误。著名的艾比路录音室(Abbey Road Studios,曾经是披头士乐队的录音室)投资了多家研究音频识别的人工智能公司,其中也包括U berchord。

  另一家公司CambridgeConsultants(剑桥顾问)教会了一款人工智能程序识别不同风格类型(比如拉格泰姆、巴洛克)的钢琴乐。这套名为A ficionado的系统只花了几百小时学习不同钢琴演奏曲,教学素材包括从YouT ube上下载的专业演奏录音和业余练习视频。这些学习素材的选择零碎而随意,没有遵循任何规则。Cam bridgeConsultants的蒙蒂·巴洛(MontyBarlow )说,“对人工智能而言这也是一种挑战,看它能否处理看似无限复杂的现场音乐。”

  Aficionado的音乐培训并非为了作秀或简单地证明什么。用音乐训练人工智能系统,让它忽略节奏、音量或声调等无关因素,被证明是教它们发现复杂数据中隐藏模式的好方法。音乐培训毕业后,Aficionado的第一个任务就是识别电信网络中的错误。

  但AudioAnalytic公司还有更远大的目标。米歇尔说,“我们希望建立所有声音的分类系统,这显然是一项艰巨的工作。”迄今为止,该公司的软件已经能够识别玻璃窗破碎、婴儿啼哭和烟雾警报器的声音。在月初的拉斯维加斯消费电子产品展上,他们又将狗叫声纳入可识别声音目录。

  家庭智能系统应用

  与此同时,公司还在研究异常状况监测器。这一装置能够在背景噪音中识别异常声响。

  比如某人摔倒的声音,再比如爆裂水管发出的嘶声。最终,研究人员还会教系统辨别汽车警报器的声音,针对美国市场他们还打算增加枪声识别功能。下一步,A udioA nalytic计划将声音识别系统推销给智能家庭装置制造商。

  英国智能温控和照明装置公司H ive的总经理N ina Bhatia认为识别不同声音的能力非常有用,“能够监测并识别大量的环境声音对于智能家庭技术越来越重要。这可以帮助人们在外出时及时轻松地了解自己家里的状况。如果家里的烟雾报警器响起,即使你正在公司开会也可以立刻知道。”

  除了向你的智能手机发送提示,一些系统还能自行采取应对措施。窗户破碎的声音可能触发电灯开关。婴儿的啼哭可能触发小夜灯打开,并启动旁边的扬声器播放摇篮曲。

  中国电子公司Sengled(生迪)已经将Audio Analytic技术用于一款底部带扬声器的智能灯。其他智能家用装置公司也开始将这一技术纳入他们的产品,比如恒温器。由于通常被安装在房屋的中心位置,恒温器占据了优越的“窃听”位置。

  识别报警声、啼哭声、狗叫声

  教人工智能识别声音的最大困难在于确保准确性。错误的警报可能引发不必要的恐慌。然而,机器识别系统的精确度取决于它们在学习时听过的音频样本。米歇尔总结说,“除非掌握充足的数据,否则人工智能毫无用处。”

  而创造数据是一项繁重的工作。据米歇尔说,为了收集足够多的玻璃窗破碎的声音样本,他们连续几周都在砸玻璃。“在这些被砸碎的样本中有的是从地板到天花板的商店玻璃门。这种玻璃砸起来特别危险,飞溅的玻璃很可能割伤你的脚或腿。”

  为了录到尽量多的婴儿啼哭声样本,公司找到了剑桥地区的多个母婴团体。为了给录音样本分类制作索引,他们不得不自己编撰了一套词汇来形容不同类型的哭声。米歇尔说,“比如有一种哭声特别沙哑,好像是从喉咙底部发出来的,我们称之为‘vo-calcry’(嗓子哭声)。”

  相比之下,狗叫声就容易多了。他们和兽医合作,录制了尽量多种类的狗的叫声,然后从小型的京巴到尺寸堪比单人沙发的大丹犬,不同品种的狗叫声都作为学习资料被“喂”给他们的人工智能系统。

  为了教会系统识别烟雾报警器的声音。Audio Analytic从网上购买了各种不同类型的报警器。在他们办公室的储物架上堆放着数百个形态各异的报警器。最初,他们的人工智能系统无法区别烟雾报警器和其他家用装置发出的“哔哔”声响。比如一些电话铃声、闹钟声音和烤箱计时器的声音都和烟雾报警器声音非常相似。为了识别其中细微差异,人工智能系统不仅要辨别音调和持续时间,还需要注意“哔”声之间的标志性间隔。

  意想不到的难题

  然而,无论砸碎多少扇窗户、触发多少个烟雾报警器,永远有一些意想不到的状况发生。有一个品种的鹦鹉擅长惟妙惟肖地模仿烟雾报警器的声音,几乎能够以假乱真。于是A udio A na-lytic又想方设法教系统学会忽略这种扁毛生物发出的假警报。

  此外,米歇尔的团队还计划教他们的系统学会辨别人类的叫喊声,尤其是那些凶狠的、带威胁性的人声。这种声音几乎没有种族和语言的差异。米歇尔解释说,人体的肾上腺素激增可影响喉咙,造成独特的嗓音变化。

  然而,这同样是一个难啃的类型。在发现公鸡和电锯发出的声音同样会促发侵略声警报后,AudioAnalytic被迫暂时中止这种类声音的识别,并着手研究其他对策。

  现代城市是一个充满声音的世界———而人工智能才刚刚开始倾听。


标签