CN103999473A

CN103999473A - 用于内容识别的音频指纹

Info

Publication number: CN103999473A
Application number: CN201280061913.3A
Authority: CN
Inventors: 马尔科姆·斯莱尼; 安德瑞斯·赫尔南德斯·沙夫霍瑟
Original assignee: Yahoo Inc
Current assignee: Verizon Patent and Licensing Inc
Priority date: 2011-12-20
Filing date: 2012-11-30
Publication date: 2014-08-20
Anticipated expiration: 2032-11-30
Also published as: US8949872B2; EP2795913A1; HK1199344A1; TWI516100B; US20130160038A1; CA2856843C; EP2795913B1; EP2795913A4; CA2856843A1; TW201342890A; CN103999473B; WO2013095893A1

Abstract

用于识别流过电视的多媒体内容的方法和系统包括从被选择用于在电视处呈现的多媒体内容中取回音频信号。所取回的音频信号被划分到较小间隔的多个区段中。分析特定的区段来识别声学调制并基于该声学调制生成该特定区段的区别向量，其中该向量定义了音频信号的特定区段的独有指纹。使用该特定区段的向量来查询服务器上的内容数据库以获得匹配该特定区段的指纹的多媒体内容的内容信息。内容信息被用于识别与所接收的用于呈现的音频信号相匹配的多媒体内容的源和多媒体内容。

Description

用于内容识别的音频指纹

技术领域

本发明涉及音频指纹，更具体地涉及用于所连接的电视的音频指纹。

背景技术

电视观看已经在多年间发生了改变。技术的进步已经允许电视制造商将互联网和web特征集成到电视机中，来提供通过这些电视机连接和访问在线交互媒体、互联网TV、OTT内容(over-the-top content)、和按需流媒体的能力。除了电视机之外，一些诸如机顶盒、蓝光播放器、游戏控制器、和其他协同设备之类的外部设备也装备了这些互联网和web特征以便使得传统的、没有所集成的这些特征的电视机能够通过这些外部设备访问互联网和web特征。利用这些带互联网功能的电视机，观看者能够搜索和找到在web上可用、本地可用、或者直接由内容提供商提供的视频、电影、照片、和其他内容，该内容提供商例如是有线内容提供商、卫星内容提供商、其他用户等等。并入到TV和外部设备中的互联网特征还提供了与社交网络站点的集成，从而允许观看者在进行传统的TV观看的同时进行社交互动。

带有互联网功能的电视机拥有众多的应用以允许用户搜索并选择用于观看的内容。然而，要被观看的内容的身份(identity)和/或内容的源在电视机处可能不是可用的。如果能够通过指纹来识别被选择用于观看的内容从而使得与该内容有关的附加信息和宣传内容(包括与内容相关的事件)能够被呈现给观看者，那么这将是有利的。在当前的信息时代，示出任何与该内容有关的附加信息能够增加用户的参与度和用户的满意度。

这是产生本发明的实施例的背景。

发明内容

本发明的实施例描述了在电视上允许对被选择用于观看的多媒体内容进行识别的方法和系统。互联网使能的电视机或外部设备的处理器执行的算法从被选择用于在电视设备处呈现的多媒体内容中取回音频信号、通过检查该音频信号的调制特性来执行该音频信号中的一部分的指纹化、以及使用指纹来识别与来自内容提供商的内容有关的信息。内容信息可被用于识别与该内容有关的附加信息或宣传媒体，或者用于生成在该内容旁边呈现的事件。

实施例提供了一种使用音频信号确定诸如视频内容之类的多媒体内容的源的方式。由于大多数受保护的内容在给定音频的情况下是可识别的，因此分析多媒体内容的图像不如分析所广播的话语和音乐那么重要。当前的实施例提供了通过执行以下动作聚焦在一小段音频信号上来识别整个内容的方式：提取被选择用于呈现的多媒体内容的音频部分、对该音频部分进行指纹化、以及将该指纹与数据库中可用的多媒体内容的相应音频部分进行匹配来确定该多媒体内容。当前实施例提供了一种高效算法，该算法聚焦于音频信号的一部分的调制特性上来匹配从多个内容提供商中获得的多媒体内容。算法还提供了这样的能力：通过在本地缓存中存储与内容有关的信息并执行对流向电视机的音频信号的周期性验证来验证该音频信号是针对同一内容的。算法通过以下动作来执行周期性验证：生成流式音频信号的新指纹并与本地缓存中的内容信息进行比较来确定信号是否继续与本地缓存中的内容相匹配或者是否有偏离。如果存在偏离，那么算法启动在数据库服务器上的搜索以找寻与其中存储的内容的匹配并且匹配周期继续。如果不存在偏离，那么不需要查询数据库服务器来找寻匹配，从而在提供对于内容的高效和精确匹配的同时产生了资源优化和匹配速度。

应当认识到，本发明能够以多种方式(例如，方法和系统的方式)实现。本发明的数个创造性实施例被描述如下。

在一个实施例中，公开了一种用于识别流过电视的多媒体内容的方法。该方法包括从被选择用于在电视处呈现的多媒体内容中取回音频信号。所取回的音频信号被划分到较小间隔的多个区段中。分析特定的区段来识别声学调制(acoustic modulation)并基于该声学调制生成该特定区段的区别向量。该向量定义了音频信号的特定区段的独有指纹。使用该特定区段的向量来查询服务器上的内容数据库以获得匹配该特定区段的指纹的多媒体内容的内容信息。内容信息被用于识别与所接收的用于呈现的音频信号相匹配的多媒体内容的源和多媒体内容。

在另一实施例中，公开了一种用于识别流过电视的内容的方法。该方法包括从被选择用于在电视处呈现的内容中取回音频信号。音频信号被划分到较小间隔的多个区段中。分析音频信号的特定区段来识别声学调制以基于该声学调制生成针对特定区段的向量。该向量标识了与该特定区段的数据点有关的多个浮点数并且定义了音频信号的特定区段的独有音频指纹。内容数据库被搜索来识别带有具有最接近于该特定区段的多个浮点数的数据点的音频区段的一个或多个内容。内容数据库是对于多个音频区段的预计算出的数据点的存储库，该多个音频区段表示从多个内容提供商处获得的多个内容的多个音频信号的不同部分。带有某一音频区段的内容被识别出，该音频区段具有最接近特定区段的浮点数的数据点。使用带有与该特定区段相匹配的音频区段的内容的内容标识符来查询内容提供商数据库。响应于该查询，从内容提供商数据库中接收内容的一部分。该内容的一部分包括匹配特定区段的内容记录以及针对预定量时间的附加记录。从内容提供商数据库接收的内容的一部分被用于对流经电视的音频信号的后续匹配。

在另一实施例中，公开了一种用于匹配流经电视的内容的宣传媒体的方法。该方法包括从被选择用于在电视处呈现的内容中取回音频信号。音频信号被划分到较小间隔的多个区段中。分析音频信号的特定区段来识别调制特征并生成与关联于音频区段的数据点有关的多个浮点数的向量。该向量定义了音频区段的独有指纹。内容数据库被搜索来识别带有具有最接近于音频信号的特定区段的多个浮点数的数据点的音频区段的内容。内容数据库是对于多个音频区段的预计算出的数据点的存储库，该多个音频区段表示与从多个内容提供商处获得的多个内容相关联的多个音频信号的不同部分。使用特定区段的指纹来从服务数据库中识别出与该内容有关的宣传媒体。从内容提供商数据库中接收内容的一部分，从广告活动数据库中接收与所识别的宣传媒体有关的元数据和资产(assets)。使用所取回的元数据和资产对宣传媒体的多媒体内容进行组装以在电视上在与音频信号流有关的内容旁边进行呈现。

因此，发明的实施例提供了用于通过使用声学调制对从内容中提取的音频信号的一部分进行指纹化以及将该指纹与存储在内容数据库中的内容进行匹配来识别流经电视机的内容的源的高效搜索和匹配算法。匹配算法在提供高效匹配的同时使用了最优的系统资源。算法继续通过周期性的指纹化和匹配来验证匹配的有效性。算法使用周期性匹配的结果来识别和更新在内容旁边呈现的事件或附加信息。附加信息与当前流经电视机的内容有关并且以无缝的方式被提供在内容的旁边，从而增强了用户的电视观看体验。用户体验的满意度能够被充分利用来增加通过将适当的宣传媒体定位给用户的货币化。

本发明的其他方面将根据以下详细描述并结合附图变得清楚，该以下详细描述通过示例的方式阐述了本发明的原则。

附图说明

通过参考结合附图的以下描述可最佳地理解本发明。

图1示出了在本发明的一个实施例中，装备有算法的系统的简化概图，包括算法内用于识别流经电视的多媒体内容的源和内容的各种模块。

图2a-2f示出了对在本发明的一个实施例中使用算法的C和Matlab实现的音频信号的采样音频区段的调制特性进行比较的简图。

图3示出了在本发明的一个实施例中用于将特定区段与内容的相应区段相匹配的局部敏感哈希(locality sensitive hashing)技术的图形表示。

图4示出了在一个实施例中被用于通过分析音频区段的调制特性来生成区别向量的示意调制流程图。

图5示出了在本发明的一个实施例中算法遵循的用以生成音频区段的指纹的示意音频指纹流程图。

图6示出了在本发明的一个实施例中由算法用于识别流经电视的多媒体内容的处理流操作的流程图。

图7示出了在本发明的替换实施例中由算法用于识别流经电视的多媒体内容的各种处理流操作的流程图。

图8示出了识别用于将宣传媒体与流经电视的内容匹配的处理流操作的替换实施例。

具体实施方式

广泛地讲，本发明的实施例提供了识别流经电视的多媒体内容的方法和系统。在互联网使能的电视或者连接至电视的互联网使能的外部设备的处理器上执行的算法从被选择用于呈现的内容中选择音频区段、生成音频指纹并使用该音频指纹来识别多媒体内容的源和多媒体内容信息。算法利用音频区段的声学调制特性来执行匹配并且在以最优和有效的方式使用网络资源的同时通过周期性验证来确保正确的匹配。算法采用算法可用的本地缓存来存储匹配内容和执行周期性验证以确保所识别的内容继续与电视处的流内容有关。算法还使用多媒体内容信息来识别附加信息(例如，与内容有关的宣传媒体和/或事件)以在内容的旁边进行呈现。

在简要概述之后，现在参考附图来详细描述发明的各种实施例。图1示出了系统的简化概图，其标识了用于识别流至电视的多媒体内容的高层软件/硬件模块。系统包括呈现设备(例如，电视100)来请求和接收来自内容提供商的内容。在一个实施例中，电视包括被集成到电视中的互联网连接接口110-a。在另一实施例中，电视被连接至诸如带有集成的互联网使能接口的机顶盒110-b之类的外部设备。互联网连接/使能接口例如可包括替代通过诸如卫星信号或者有线电视格式之类的传统模式进行递送，通过互联网接收电视服务的互联网协议组(suite)。电视服务可包括直播电视、时移电视和按需视频(VOD)内容。通常，在互联网使能的电视中，内容保留在内容提供商的网络服务器上并且所请求的节目被流向电视。结果，电视中的互联网连接接口未意识到所请求的内容的源以及与该内容有关的信息。电视还装备有硬件音频捕获系统(HAC)115，该硬件音频捕获系统被配置为：与互联网使能/连接接口进行交互并且从从内容提供商的网络服务器中选择用于流向电视的内容中提取音频信号的一部分，其中被选择用于流处理的内容是响应于观看者的请求的并且能够是直播电视、时移电视和VOD内容中的任何一种。HAC与电视处可用的算法120(例如，音频处理算法)进行交互以发送捕获自互联网连接接口的音频信号用于进一步处理。

算法120接收音频信号的一部分并且将该部分音频信号划分为较小间隔的多个区段。在一个实施例中，被算法接收的该部分音频信号可被划分为5秒间隔的区段。然后算法选择特定的区段进行分析。在一个实施例中，算法可基于其内所包括的内容的有效载荷数据来选择进行分析的特定区段。然后算法分析该特定的音频区段来确定音频信号的声学调制并生成浮点数的区别向量。该向量基于特定区段的调制特性定义了音频信号的音频指纹。生成定义了音频指纹的区别向量的处理将在下文参考图1进一步描述。在一个实施例中，使用所生成的矢量，算法查询在与电视相关联的本地服务器上可用的内容数据库来找寻带有在服务器上可用的数据的指纹的匹配。将指纹与内容数据库中的内容匹配的处理将参考其他图在下文详细描述。在找到匹配后，算法从内容数据库获得包括多媒体内容的源的内容信息。算法可使用该内容信息来取回覆盖特定区段的时间的内容记录以及针对预定量时间的附加记录，并将其存储在本地缓存125中。本地缓存中的信息可被算法用来进一步验证流经电视的内容。

在另一实施例中，本地缓存可被用于预填充内容和相应的指纹，并且算法可使用本地缓存中的信息来找寻与音频信号的区段的匹配。在此实施例中，后端服务器基于以下内容来动态地收集内容相关的信息和相应的指纹信息：电视设备的用户通常观看什么节目、观看什么节目的频率更高、特定的地理区域的用户(使用用户的邮政编码)流行什么节目等等。当用户选择在电视上观看的内容时，电视处的算法请求服务器下载缓存。响应于来自算法的请求，服务器将不同子集的内容和相应的匹配指纹推送到电视的本地缓存上。然后算法使用本地缓存中的信息来识别用户所选择的内容。本地缓存中的信息能够被使用直到它到期。当该信息到期时，算法发送针对该内容和与该内容相关联的指纹的更新请求至后端服务器，并且后端服务器将转送恰当的内容和指纹信息来装载本地缓存。

在一个实施例中，算法通过查询一个或多个网络服务器上可用的一个或多个数据库来执行指纹匹配。例如，算法可首先生成音频信号的所选区段的指纹并且查询网络服务器上的内容数据库210来找寻指纹的匹配。内容数据库可为针对从多个内容提供商处获得的多个音频信号的多个部分的指纹的存储库。在一个实施例中，来自多个内容提供商的内容信息可以被提前获得并且被存储在对算法本地可用的服务器上的内容数据库中，从而使得内容能够被轻易地识别出而不管它被广播的位置和时间。内容数据库中的内容的音频部分可被指纹化，并且这些指纹可被存储在内容的旁边或者被存储在服务器上的分离的数据库中，该服务器装备有搜索软件并且用于当前被选择用于在电视处观看的内容的匹配。服务器上的搜索软件帮助搜索数据库并找寻内容的匹配。使用此信息，在电视的处理器上执行的算法然后查询第二服务器(例如，事件服务器或者商业信息服务(BIS)服务器)以确定是否存在为所选内容被流入的特定日期时间安排的针对此音频的任何(一个或多个)BIS服务、广告活动或事件。如果发现了针对该时间段的服务、事件或者广告活动，那么算法从广告活动数据库中抓取服务/事件/广告活动的元数据和资产来创建该服务/广告活动的应用或视频。应用或视频被呈现在流入电视中的内容的旁边并且提供了与内容有关的附加信息或宣传媒体。观看所选内容的观看者被提供了与正在观看的内容最相关的附加信息，从而丰富了用户的观看体验。算法提供了提取一小部分音频信号的特征并使用它来匹配和描述被选择进行流处理的完整视频内容的能力。

现在将参考图1详细描述特征提取和指纹化。在典型的音频/视频记录中，计算出的媒体的特征的顶部(peak)和转折(transition)在编辑、压缩和传输期间没有太大的变化。此外，在语音领域(speech world)，已确定大多数的语音信息集中与4Hz左右。结果，算法使用调制声谱图(spectrogram)来捕获音频信号的调制特性并且使用音频调制指纹技术来识别视频的指纹。算法生成针对所选的音频信号的特定区段的随时间推移的声谱图并且查找在不同频率周围分布的能量。为了实现它，使用带通滤波器将所选区段内的音频信号划分到不同的波带/通道中。在一个实施例中，使用13个线性分隔的滤波器将所选的音频区段划分以获得13个不同的通道。与使用带通滤波器划分音频信号有关的附加信息在可从https：//engineering.purdue.edu/～malcolm/interval/1998-010/获得的“音频工具箱(Auditory Toolbox)”中被描述，通过引用将该地址合并于此。可以合并一个或多个通道来提供更宽的通道用于分析。

在获得了不同通道的音频信号之后，算法通过采用每个通道的信号的绝对值来计算出每个通道中的调制能量并且然后使用截止频率在6Hz处的低通滤波器来对响应进行平滑化。调制能量是对通道中的时间信息的粗略测量。调制能量提供了对音频信号如何随时间变化的重要测量。在一个实施例中，算法使用快速傅里叶变换(FFT)算法来分析每个通道中的调制。根据FFT获得的量值提供了对于在每个频率处每个通道中的能量多少的测量。图5示出了在发明的一个实施例中算法遵循的用于生成从流向电视的内容中提取的音频区段的音频指纹的音频指纹流程图。如图所示，指纹是通过从流式内容中提取音频信号并将音频信号的特定区段通过滤波器带以将音频区段划分为多个不同频率处的通道来生成的。在每个通道处每个频率中的调制的量值被测量以确定在每个通道中每个频率处的能量分布。

只聚焦在频谱的量值上而忽略频谱的相位使得算法能够在即使音频数据在分析窗口中具有轻量位移时也能获得内容的相同指纹。使用调制声谱图，算法针对每个带通通道在从0Hz(DC)到大约6Hz的频率处计算每个通道的调制的18次测量。该18次测量是从通道数与调制频率的二维阵列中选择性地选取的。因此，利用13个通道的调制谱和在每个通道处的18次独立频率测量，算法计算出针对音频信号的所选区段的234个元素(即，13*18)的单个区别向量。向量中的每个元素是表示为浮点数的数据点。该区别向量简要地描述了音频信号在该较短区段内的调制并形成了音频信号的指纹。

图4示出了算法遵循的用于生成针对音频信号的音频区段的区别向量的调制流程图，该音频信号是从被选择用于在电视处进行流处理的内容中提取的。算法检查特定通道的声学调制并且使用FFT来生成特定通道的声学谱。来自声学谱的选择性数据点(234数据点)被选择来计算音频区段的向量。

图2a-2f示出了由算法生成并用来与来自内容提供商的内容进行匹配的音频信号声谱图。图2a、2b和2c是使用三调制语调测试的Matlab实现来生成的，该三调制语调测试利用经2Hz、3Hz和4Hz调制的频率调制441Hz、881Hz和1201Hz。当使用较低的频率调制器滤波器(例如，2Hz)时，带有较低调制频率的低通道被记录，如图2a(Matlab实现)所示。类似地，图2b示出了来自3Hz的稍高频率调制器滤波器的结果并且图2c示出了来自4Hz的更高频率调制器滤波器的结果。这里应当注意，通过使用Matlab实现方式生成的音频信号声谱图是示例性而不应被视为限制性的。可以使用诸如C实现方式之类的其他类型的实现方式，如图2d、2e和2f所示。能够从图2a-2f中注意到，来自C实现方式的结果在3个不同频率的每个频率处与来自调制器频率的Matlab实现方式的结果相似。另外，每个频率的声音具有其自身的独有指纹并且带有这些不同频率的音频信号将生成其自身独有的指纹组合。指纹越大，它就越容易进行匹配。为了取得较好的采样，在一个实施例中选择5秒的窗口进行分段和指纹化。用于对音频信号进行分段的时间段、通道的数目以及频率的数目是示例性的而不应被视为限制性的。

在生成针对特定音频区段的声谱图并且生成区别向量之后，算法使用该向量来找寻内容数据库中的内容的匹配。内容数据库可位于服务器上并且通过网络(例如，互联网)对算法可用。内容数据库是从多个内容提供商处接收到的内容的存储库，其中内容的音频信号已经被指纹化。音频信号的指纹被存储在内容的旁边或者被存储在分离的数据库中并且每个指纹映射到内容。算法可使用各种技术来找寻向量的匹配。在一个实施例中，算法使用随机化的算法(例如，局部敏感哈希(LSH)方法)来查找并找到内容数据库中的内容的匹配。当新内容被选择流向电视时，算法捕获内容的音频部分并将该内容划分到例如5秒的较小间隔的区段中。然后算法执行相同的分析(上文已经描述过)来获得所捕获的音频信号的特定区段的指纹并且通过使用向量的浮点数将所捕获的音频信号的指纹针对存储在数据库中的那些指纹进行匹配。应当注意到，即使所捕获的音频信号的内容与内容数据库中的音频信号相同，信号也可能不是精确匹配的。这可能由于这样的事实：数据库中的音频信号可能经历了不同的压缩技术并且与正在进行匹配的特定区段所关联的音频信号相比具有不同的时间偏移。因此，直接和常规的匹配将不能提供所期望的匹配结果。为了适应压缩技术中的这种变化，算法可使用LSH技术来找寻最近邻匹配(nearest neighbormatch)。

图3示出了使用LSH匹配技术的、特定音频区段的指纹与来自内容数据库的预定指纹的比较。LSH匹配使用来自流向电视的新内容的音频信号的区段的234个浮点数中的每个并且尝试与内容数据库中的内容的音频信号的相应数据点进行匹配。如上所述，234个浮点数是使用调制声谱图获得的。应当理解，生成234个浮点数的向量以及使用LSH匹配技术来匹配234个浮点数的向量是示例性的而不应被视为限制性的。因此，可采用替换方式对音频信号的区段进行匹配。算法计算内容数据库中的音频区段的每个数据点与音频信号的特定区段的相应浮点数之间的距离。当算法找到具有的数据点更接近于特定音频信号的相应数据点的多个音频信号时，算法确定数据点最接近由特定音频区段的向量中的浮点数定义的数据点的内容的音频信号。当不止一个内容具有最接近特定音频区段的数据点的音频信号时，我们通过彩用被选择进行流处理的内容的后续音频区段来进行进一步的采样、分析后续音频区段以定义第二向量、并使用第二向量来找寻匹配。采样、分析和匹配可以是连续的直到发现良好的匹配。关于局部敏感哈希技术的更多信息，可参考Malcolm Slaney和Michael Casey的、题为“Local-Sensitive Hashing for Finding Nearest Neighbors(用于找寻最近邻的局部敏感哈希)”的IEEE公开(IEEE Signal Processing magazine，March2008)，通过引用将其合并于此。

内容的匹配使得算法能够识别内容的源并且能够取回与被选择用于流向电视的内容相关联的信息。在一个实施例中，算法请求并接收来自服务器的内容，其包括针对它所匹配的特定区段的时段的内容的指纹的匹配以及还有针对预定量时间的附加到来的指纹。服务器与多个内容提供商进行交互并且从这些源中接收内容。附加内容被用于对于音频信号的后续匹配。在一个实施例中，内容和附加的内容被接收并被存储在算法可用的本地缓存中。算法可通过验证音频信号的一个或多个后续区段继续与存储与本地缓存中的内容的音频区段相匹配来确保音频区段被匹配到正确的内容。如果音频信号的后续音频区段与内容的音频区段相匹配，那么就无需查询服务器以获得内容。替代地，内容可以从本地缓存中提供。在另一方面，如果后续音频区段不与存储于本地缓存中的内容相匹配，那么来自内容数据库的、匹配特定音频区段的新内容被取回并被存储在本地缓存中以用于后续匹配。

存在使用当前实施例的音频指纹匹配来缓存和分布工作的多个选项。一些最重要的选项包括提前暗示(advance hinting)、本地缓存、和验证。提前暗示是一种用所匹配的内容标识符和到来指纹的序列来应答单个指纹请求的方法。与内容ID一起新接收的指纹被存储在TV上的本地缓存中用于后续的参考和验证。到来的指纹允许TV或连接到TV的机顶盒识别出什么内容将在后面到来并简单地对照存储在本地缓存中的到来指纹检查新计算的内容的指纹。如果新计算的指纹与所期望的到来指纹相匹配，那么内容提供商源不存在变化，并且无需向内容提供商查询内容标识符。

在一个实施例中，本地缓存选项被调用，其中匹配音频信号的指纹的内容和指纹被下载并被存储在本地缓存中以与音频信号的到来的指纹进行匹配。在另一实施例中，内容和与多个内容有关的一组指纹被下载到本地设备(即，TV)并被存储在本地缓存中。在此实施例中，该组指纹可能与针对特定时段的时间所安排的内容有关。客户端能够周期性地请求和接收该组指纹，例如每天一次或者每三个小时一次等等。在一个实施例中，客户端根据音频信号计算出指纹，并且只在内容与存储与本地缓存中的已知指纹中的一个匹配的情况下对该内容执行动作。通过只在存在匹配时执行动作，网络资源被保存下来，因为算法避免了不必要的为了找寻匹配的服务器访问。

在一个实施例中，验证选项被调用，其中算法将请求与基于对内容的最佳猜测的内容标识符一同发送至服务器。在一个实施例中，内容的最佳猜测可基于先前的查询。接收这样的请求的服务器只验证并且确认从TV中的算法接收到的指纹确实是与在请求中获得的内容标识符有关的内容的所期望指纹。此选项也节省了网络资源，因为服务器已经被提供了足够的与内容有关的信息来识别该内容。因此，本地缓存与指纹一起提供了对于被选择用于在TV处呈现的内容的更快和精确的匹配，同时保存了网络资源。

在发明的一个实施例中，内容标识信息被算法用来识别事件、宣传媒体或者广告活动并抓取广告活动或事件的元数据和资产。在此实施例中，源数据和资产被用于组装在内容的旁边呈现的视频或应用。一旦视频或应用被呈现在内容的旁边，算法通过继续执行对于音频信号的后续区段的匹配来继续验证匹配的有效性，从而确保该内容没有随时间变化。如果内容发生了变化，那么算法重新初始化本地缓存中的数据并开始音频信号的提取、区别向量的生成、以及该向量到内容数据库中的内容的匹配，以识别新内容的源和与新内容有关的信息，从而使得宣传媒体或事件能够被识别并被组装以用于与新内容的呈现。

图6示出了在发明的一个实施例中用于识别流经电视的多媒体内容的操作的流程图。方法始于操作710，其中从被选择用于在电视处呈现的多媒体内容中取回音频信号。多媒体内容可以从包括卫星提供商、有线提供商、DVR、蓝光提供商、来自互联网的直播媒体在内的内容源中的任何一个处获得。多媒体内容可被存储在内容提供商服务器上并且在观看者的请求下被流向电视。结果，内容的源或者内容信息在电视的互联网连接接口或者连接至电视的外部设备处不是可用的。为了识别内容的源和内容信息，算法可将音频信号划分为较小间隔的多个区段，如操作720所述。

音频信号的特定区段被分析以识别特定区段中的声学调制，如操作730所述。特定区段是基于其中所包括的有效载荷数据而被选择用于分析的。对特定区段的分析的结果是对区别浮点数表示的多个数据点的标识。多个浮点数被用于生成向量。使用浮点数的向量来查询服务器上的内容数据库，如操作740所述。服务器装备有帮助确定来自特定内容提供商的内容的位置的搜索算法，其中特定内容提供商的内容包括这样的数据区段，该数据区段的数据点与特定区段的浮点数相匹配或者紧密接近。内容数据库中的内容是从多个源中获得的，并且这些内容的音频信号被预先指纹化并与内容一起存储或者存储在分离的数据库中且被映射到内容数据库中的内容。结果，当来自特定内容提供商的内容的音频区段与流向电视的内容的特定区段相匹配时，从该内容提供商处取回与该内容有关的信息以及该内容的源。所取回的信息可以被存储在本地缓存中并被用于对流经电视的内容的进一步验证。

图7示出了用于识别流经电视的内容的本发明的替换实施例。处理开始于操作810，其中电视内的算法识别出对于流经电视的特定内容的选择。内容能够来自任一内容提供商。来自所选内容的音频信号被取回。音频信号被划分为多个较小的间隔，如操作820所述。在一个实施例中，每个区段划分有预设的持续时间，例如5秒。多个区段内的特定区段被选择并被分析以识别该特定区段内的声学调制，如操作830所述。声学调制是通过将音频区段通过带通滤波器并使用FFT检查该特定区段的调制特性以识别音频区段的每个频率在每个通道处的能量分布来获得的。对调制特性的检查的结果是标识出由浮点数表示的选择性数据点组。该组浮点数被用于计算区别向量。该向量定义了特定区段的独有音频指纹。

内容数据库被搜索以识别带有具有与特定区段的向量的浮点数匹配或者紧密接近的数据点的音频区段的一个或多个内容，如操作840所述。如前所述，内容数据库包括来自多个内容提供商的内容，该内容具有已经被算法使用相同的技术进行指纹化的音频区段。当来自一个或多个内容提供商的不止一个音频区段包括与特定音频区段的数据点匹配的数据点时，算法识别具有与该特定区段的浮点数最接近的音频区段的内容。然后算法获得带有与特定区段的音频区段紧密匹配的音频区段的内容的内容标识符，如操作850所述。使用诸如内容标识符之类从内容数据库获得的信息对内容提供商数据库进行查询，如操作860所述。响应于该查询，所标识的内容的ID部分被从内容提供商数据库接收，如操作870所述。该部分可包括匹配特定区段的内容的标识符和针对预定量时间的附加指纹。在一个实施例中，附加记录可包括除了与特定区段有关的5秒之外的关于额外的15秒钟的记录。从内容提供商获得的音频内容的记录被存储在本地缓存中并被用于进一步验证和匹配宣传媒体或事件。

图8示出了用于匹配流经电视的内容的宣传媒体的另一替换实施例。该方法开始于操作910，其中从被选择用于在电视处呈现的内容中取回音频信号。音频信号被划分为较小间隔的多个区段，如操作920所述。音频信号的特定区段被选择用于分析以识别调制特性，如操作930所述。特定的音频区段可基于其内所包含的有效载荷来选择。对特定区段的分析包括：生成特定区段的声学声谱图并识别声学声谱图中与数据点有关的、定义了音频信号的特定区段的声学调制的多个浮点数。区别向量被计算为浮点数的函数。该向量定义了音频区段的独有音频指纹。

在操作940，内容数据库被搜索以识别这样的内容，该内容包括带有与特定音频区段的多个浮点数匹配或者紧密接近的数据点的音频区段。内容数据库是多个音频区段的预计算出的数据点的存储库，该多个音频区段表示从多个内容提供商处获得的多个内容的多个音频信号的不同部分。在识别出带有与特定音频区段匹配的音频信号的内容后，可使用内容标识符从内容提供商处取回与内容有关的内容信息和内容的源。

使用内容标识符，使用特定区段的指纹来从服务数据库中识别出与内容有关的宣传媒体或事件，如操作950所述。内容提供商数据库被查询以获得来自内容提供商数据库的内容并且广告活动数据库被查询以获得与所识别的宣传媒体有关的元数据和资产，如操作960所述。处理结束于对来自从内容提供商数据库获得的内容的多媒体内容的组装以及使用从广告活动数据库取回的元数据和资产对宣传媒体内容/应用的组装以用于在电视处进行呈现，如操作970所述。宣传媒体内容在发明的一个实施例中可被以小工具(widget)的形式在内容旁边或者分离地呈现。

通过借助与内容有关的音频信号的较小区段的音频指纹化提取内容的特征来确定特定的用户正在他/她的电视上观看什么内容并识别与该内容有关的特定应用或宣传多媒体以用于在内容旁边的呈现，算法表现得像为用户创建广播交互服务(BIS)的潜在桥梁。使用基于其调制相似度来匹配两个信号的调制检测处理，较小区段的音频被与为特定时间段安排的、从内容提供商/广播商接收的多个内容的音频进行匹配。该方法使用了更少的CPU资源和时间但提供了更高效和精确的匹配。除了调制匹配之外，算法还通过使得针对时间区段以及针对附加预定量时间的匹配内容的记录能够被本地存储于电视的本地缓存中并且通过继续验证所识别的内容继续与被选择用于在电视处呈现的多媒体内容的音频信号匹配来提供更快的匹配。当用户改变选择的用于观看的多媒体内容时，算法确定存储在本地缓存中的内容不再匹配并冲除内容。然后算法使用如前所述的HAC和LSH技术进行音频指纹化，使得其成为更健全和高效的算法工具。

本发明的实施例可被在多种计算机系统配置中实现，包括手持设备、微处理器系统、基于微处理器或可编程的消费者电子产品、迷你计算机，大型计算机等。本发明还能够被实现在分布式计算环境中，其中，任务被经由基于有线或无线网络所链接的远程处理设备所执行。

将上述实施例牢记在心，应当理解，本发明能够使用多种计算机实现的操作，涉及存储在计算机系统上的数据。这些操作能够包括对数据的物理变换、数据的保存、和数据的显示。这些操作是那些需要对物理量的物理操纵的操作。通常但不必须，这些量以能够被存储、转换、组合、比较和其他操纵方式的电或电磁信号的形式存在。数据还能够在通过网络进行捕获和传输期间被存储在网络中。存储设备例如可以是在网络节点和与服务器相关联的存储器，以及其他计算设备(包括便携式设备)处。

这里所描述的任意操作(其形成了本发明的一部分)是有用的机器操作。本发明还涉及用于执行这些操作的设备或装置。该装置可以是针对所需的目的被具体建造的，或该装置可以是通用计算机，其被存储在计算机上的计算机程序有选择性地激活或配置。具体地，多种通用机器可被与根据此处的教导所写出的计算机程序一起使用，或者建造一个更专业的装置以执行所需的操作是更方便的。

本发明还能够被体现为在计算机可读介质上的计算机可读代码。计算机可读介质是任意可存储数据的数据存储设备，此后其能够被计算机系统读出。计算机可读介质还能被分布于与网络耦合的计算机系统中，使得计算机可读代码以分布式模式被存储和执行。

虽然出于清晰理解的目的，前述发明在一些细节上进行了描述，但很明显，在所附权利要求的范围内，可实施某种变更和修改。相应地，本实施例应被认为是说明性的而非限制性的，并且，本发明并不限于这里给出的细节，而是可在所附权利要求的范围和等同物内被修改。

Claims

1.一种用于识别流经电视的多媒体内容的方法，所述方法由所述电视的处理器执行，包括：

从被选择用于在所述电视处呈现的多媒体内容中取回音频信号；

将所述音频信号划分为较小间隔的多个区段；

分析特定区段来识别所述特定区段中的声学调制，该分析基于所述声学调制生成所述特定区段的区别向量，该向量定义了所述音频信号的所述特定区段的独有音频指纹；以及

使用音频信号的所述特定区段的向量对服务器上的内容数据库进行查询，以获得与所述特定区段的指纹相匹配的多媒体内容的内容信息，所述内容信息被用于从内容提供商获得与匹配所接收的用于呈现的音频信号的所述多媒体内容有关的信息。

2.如权利要求1所述的方法，其中所述音频信号是从由内容提供商流向所述电视的多媒体内容中捕获的，或者是从数字多媒体记录设备中获得的。

3.如权利要求1所述的方法，其中所述较小的间隔是5秒左右的预定义间隔。

4.如权利要求1所述的方法，其中分析还包括：

生成声学声谱图来识别音频信号的所述特定区段在一个或多个频率处的声学调制特性，其中所述声学调制特性散布于多个通道；

在每个通道处检查所述声学调制来测量量值，所述量值标识了在每个频率处每个通道中的能量值；以及

将所述音频信号的特定区段的所述向量计算为在与所述音频信号的特定区段相关联的时间段针对每个频率在每个通道中所测量的量值的函数，其中所述向量标识了表示所述音频信号的特定区段的独有指纹的数据点的多个浮点数。

5.如权利要求4所述的方法，其中对所述声波调制的检查以及对量值的测量是使用快速傅里叶变换技术实现的。

6.如权利要求4所述的方法，其中查询还包括：

搜索所述内容数据库以识别带有音频区段的一个或多个多媒体内容，该音频区段具有最接近于所述音频信号的特定区段的所述多个浮点数的数据点，所述内容数据库为多个音频区段的预计算出的数据点的存储库，所述多个音频区段表示从多个内容提供商获得的多媒体内容的多个音频信号的不同部分；

使用迭代计算法计算所识别的多媒体内容的每个音频区段的数据点与所述特定区段的浮点数之间的距离；以及

选择具有最接近于所述浮点数的数据点的多媒体内容，其中该多媒体内容是使用独有标识符来进行引用的。

7.如权利要求6所述的方法，还包括使用所述独有标识符从所述内容提供商取回与条目有关的多媒体内容，所述多媒体内容包括匹配所述特定区段的多媒体内容以及与当前正在所述电视处呈现的音频信号有关的、预定量时间的附加多媒体内容，所取回的多媒体内容被存储在所述电视的本地缓存中以用于对继续流经所述电视的内容的音频信号的后续验证。

8.如权利要求6所述的方法，还包括：

当不止一个多媒体内容具有最接近于所述特定区段的浮点数的数据点时，

通过选择当前被选择在所述电视处呈现的所述内容的音频信号的一个或多个附加区段来执行附加匹配。

9.如权利要求1所述的方法，还包括：

识别来自服务数据库的、与被安排用于呈现的多媒体内容有关的事件或宣传媒体，所述事件或宣传媒体是通过使用来自所述特定区段的指纹中的信息来识别的；

从广告活动数据库取回与所识别的事件或宣传媒体有关的元数据和资产；以及

使用所取回的元数据和资产来组装与所述事件或宣传媒体相关联的应用或多媒体内容，所组装的、与事件或宣传媒体有关的应用或多媒体内容在电视处在与所述音频信号有关的多媒体内容的旁边呈现。

10.一种用于识别流经电视的内容的方法，所述方法由所述电视的处理器执行，包括：

从被选择用于在所述电视处呈现的内容中取回音频信号；

将所述音频信号划分为较小间隔的多个区段；

分析特定区段来识别所述特定区段中的声学调制，该分析基于所述声学调制生成所述特定区段的向量，所述向量标识了与所述特定区段的数据点有关的多个浮点数，所述向量定义了所述音频信号的所述特定区段的独有音频指纹；

搜索内容数据库以识别带有音频区段的一个或多个内容，该音频区段具有最接近于所述特定区段的所述多个浮点数的数据点，所述内容数据库为多个音频区段的预计算出的数据点的存储库，所述多个音频区段表示从多个内容提供商获得的多个内容的多个音频信号的不同部分；

获得具有这样的音频区段的内容的内容标识符，该音频区段具有最接近于所述特定区段的浮点数的数据点；

使用所述内容标识符向内容提供商数据库查询与带有匹配特定音频区段的音频区段的内容有关的信息；以及

响应于所述查询，从所述内容提供商数据库接收所述内容的一部分，该部分内容包括匹配所述特定区段的内容记录以及针对预定量时间的附加记录，所述附加记录定义了所述多媒体内容的音频指纹的序列，从所述内容提供商数据库接收的该部分内容记录和附加记录被用于所述音频信号的后续区段的进一步匹配。

11.如权利要求10所述的方法，其中分析还包括：

在每个通道处检查所述声学调制来测量量值，所述量值标识了在每个频率处每个通道中的能量值，所述检查识别与音频信号的所述特定区段的声学调制有关的数据点；以及

将所述音频信号的特定区段的所述向量计算为在与所述音频信号的特定区段相关联的时间段针对每个频率在每个通道中所测量的量值的函数，其中所述向量标识了与所述特定区段的数据点有关的多个浮点数，所述向量表示所述音频信号的特定区段的独有指纹。

12.如权利要求10所述的方法，其中识别所述内容标识符还包括：

使用迭代计算法计算所述内容数据库中的每个内容的数据点与所述音频区段的相应浮点数之间的距离；以及

识别带有与所述音频区段的相应浮点数最接近的一组数据点的内容。

13.如权利要求10所述的方法，还包括：

将从所述内容提供商数据库中接收的该部分内容记录和附加记录存储在所述电视的处理器可访问的本地缓存中，以用于对流经所述电视的音频信号的内容的进一步验证。

14.如权利要求13所述的方法，还包括：

周期性地生成用于流式音频信号的附加区段的附加指纹；以及

将所述附加指纹与存储在所述本地缓存中的所述内容和附加记录的指纹和指纹序列进行比较以确定所述流式音频信号是否继续与所述本地缓存中的内容相匹配。

15.如权利要求14所述的方法，还包括：

当所述附加指纹不与存储在所述本地缓存中的内容的指纹匹配时，

从所述本地缓存中清除所述内容；

通过查询所述内容数据库来启动搜索以使用所述附加指纹来识别与所述附加区段匹配的内容；以及

从所述内容提供商数据库取回内容以存储在所述本地缓存中用于后续验证。

16.如权利要求10所述的方法，还包括：

识别来自服务数据库的、与所述内容有关的宣传媒体，所述宣传媒体是通过使用来自所述特定区段的指纹中的信息来识别的；

从广告活动数据库取回与所识别的宣传媒体有关的元数据和资产；以及

使用所取回的元数据和资产来组装针对所述宣传媒体的多媒体内容，所组装的、与所述宣传媒体有关的多媒体内容在电视处在与所述音频信号有关的内容的旁边呈现。

17.一种用于识别流经电视的内容的方法，所述方法由所述电视的处理器执行，包括：

取回与被安排用于呈现的多个内容相关联的一组音频指纹；

将该组音频指纹存储在于所述电视相关联的本地缓存中；

接收在所述电视上呈现内容的请求；

取回被选择在所述电视处呈现的内容的音频信号；

分析所述音频信号的特定区段来识别所述特定区段中的声学调制，该分析基于所述声学调制生成针对所述特定区段的向量，所述向量标识了与所述特定区段的数据点有关的多个浮点数，所述向量定义了所述音频信号的特定区段的独有音频指纹；

通过比较所述特定区段的音频指纹与所述多个内容的音频指纹，确定是否在所述本地缓存内找到针对所述音频信号的特定区段的所述音频指纹的匹配；

当在所述本地缓存中找到匹配时，使用与所述特定区段的音频指纹相匹配的特定内容的内容标识符查询内容提供商数据库以获得所述特定内容的一部分；以及

响应于来自所述用户的请求，呈现从所述内容提供商数据库获得的所述特定内容。

18.如权利要求17所述的方法，还包括：

当所述音频信号的特定区段的音频指纹不与所述本地缓存中存储的所述多个内容中的任何一个的指纹匹配时，

将请求转发至内容数据库，来验证与所述音频信号相关联的所述音频指纹的可能匹配，其中所述请求包括来自前一查询的内容的内容标识符；

从所述内容数据库接收对于所述音频信号的音频指纹的可能匹配的确认。

19.如权利要求17所述的方法，还包括：

通过将所述附加指纹与存储在所述本地缓存中的所述特定内容的相应指纹进行比较来验证所述附加指纹是否继续与所述本地缓存中的所述特定内容匹配。

20.如权利要求17所述的方法，其中被安排进行呈现的该组音频指纹被周期性地取回并被存储在所述本地缓存中，并且其中所述本地缓存在存储所取回的音频指纹之前被清除。