CN103999473A - 用于内容识别的音频指纹 - Google Patents

用于内容识别的音频指纹 Download PDF

Info

Publication number
CN103999473A
CN103999473A CN201280061913.3A CN201280061913A CN103999473A CN 103999473 A CN103999473 A CN 103999473A CN 201280061913 A CN201280061913 A CN 201280061913A CN 103999473 A CN103999473 A CN 103999473A
Authority
CN
China
Prior art keywords
content
audio signal
audio
fingerprint
particular section
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201280061913.3A
Other languages
English (en)
Other versions
CN103999473B (zh
Inventor
马尔科姆·斯莱尼
安德瑞斯·赫尔南德斯·沙夫霍瑟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Verizon Patent and Licensing Inc
Original Assignee
Yahoo Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yahoo Inc filed Critical Yahoo Inc
Publication of CN103999473A publication Critical patent/CN103999473A/zh
Application granted granted Critical
Publication of CN103999473B publication Critical patent/CN103999473B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/233Processing of audio elementary streams
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/7834Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using audio features
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/439Processing of audio elementary streams
    • H04N21/4394Processing of audio elementary streams involving operations for analysing the audio stream, e.g. detecting features or characteristics in audio streams
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/81Monomedia components thereof
    • H04N21/8106Monomedia components thereof involving special audio data, e.g. different tracks for different languages
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/83Generation or processing of protective or descriptive data associated with content; Content structuring
    • H04N21/835Generation of protective data, e.g. certificates
    • H04N21/8352Generation of protective data, e.g. certificates involving content or source identification data, e.g. Unique Material Identifier [UMID]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/83Generation or processing of protective or descriptive data associated with content; Content structuring
    • H04N21/84Generation or processing of descriptive data, e.g. content descriptors

Abstract

用于识别流过电视的多媒体内容的方法和系统包括从被选择用于在电视处呈现的多媒体内容中取回音频信号。所取回的音频信号被划分到较小间隔的多个区段中。分析特定的区段来识别声学调制并基于该声学调制生成该特定区段的区别向量,其中该向量定义了音频信号的特定区段的独有指纹。使用该特定区段的向量来查询服务器上的内容数据库以获得匹配该特定区段的指纹的多媒体内容的内容信息。内容信息被用于识别与所接收的用于呈现的音频信号相匹配的多媒体内容的源和多媒体内容。

Description

用于内容识别的音频指纹
技术领域
本发明涉及音频指纹,更具体地涉及用于所连接的电视的音频指纹。
背景技术
电视观看已经在多年间发生了改变。技术的进步已经允许电视制造商将互联网和web特征集成到电视机中,来提供通过这些电视机连接和访问在线交互媒体、互联网TV、OTT内容(over-the-top content)、和按需流媒体的能力。除了电视机之外,一些诸如机顶盒、蓝光播放器、游戏控制器、和其他协同设备之类的外部设备也装备了这些互联网和web特征以便使得传统的、没有所集成的这些特征的电视机能够通过这些外部设备访问互联网和web特征。利用这些带互联网功能的电视机,观看者能够搜索和找到在web上可用、本地可用、或者直接由内容提供商提供的视频、电影、照片、和其他内容,该内容提供商例如是有线内容提供商、卫星内容提供商、其他用户等等。并入到TV和外部设备中的互联网特征还提供了与社交网络站点的集成,从而允许观看者在进行传统的TV观看的同时进行社交互动。
带有互联网功能的电视机拥有众多的应用以允许用户搜索并选择用于观看的内容。然而,要被观看的内容的身份(identity)和/或内容的源在电视机处可能不是可用的。如果能够通过指纹来识别被选择用于观看的内容从而使得与该内容有关的附加信息和宣传内容(包括与内容相关的事件)能够被呈现给观看者,那么这将是有利的。在当前的信息时代,示出任何与该内容有关的附加信息能够增加用户的参与度和用户的满意度。
这是产生本发明的实施例的背景。
发明内容
本发明的实施例描述了在电视上允许对被选择用于观看的多媒体内容进行识别的方法和系统。互联网使能的电视机或外部设备的处理器执行的算法从被选择用于在电视设备处呈现的多媒体内容中取回音频信号、通过检查该音频信号的调制特性来执行该音频信号中的一部分的指纹化、以及使用指纹来识别与来自内容提供商的内容有关的信息。内容信息可被用于识别与该内容有关的附加信息或宣传媒体,或者用于生成在该内容旁边呈现的事件。
实施例提供了一种使用音频信号确定诸如视频内容之类的多媒体内容的源的方式。由于大多数受保护的内容在给定音频的情况下是可识别的,因此分析多媒体内容的图像不如分析所广播的话语和音乐那么重要。当前的实施例提供了通过执行以下动作聚焦在一小段音频信号上来识别整个内容的方式:提取被选择用于呈现的多媒体内容的音频部分、对该音频部分进行指纹化、以及将该指纹与数据库中可用的多媒体内容的相应音频部分进行匹配来确定该多媒体内容。当前实施例提供了一种高效算法,该算法聚焦于音频信号的一部分的调制特性上来匹配从多个内容提供商中获得的多媒体内容。算法还提供了这样的能力:通过在本地缓存中存储与内容有关的信息并执行对流向电视机的音频信号的周期性验证来验证该音频信号是针对同一内容的。算法通过以下动作来执行周期性验证:生成流式音频信号的新指纹并与本地缓存中的内容信息进行比较来确定信号是否继续与本地缓存中的内容相匹配或者是否有偏离。如果存在偏离,那么算法启动在数据库服务器上的搜索以找寻与其中存储的内容的匹配并且匹配周期继续。如果不存在偏离,那么不需要查询数据库服务器来找寻匹配,从而在提供对于内容的高效和精确匹配的同时产生了资源优化和匹配速度。
应当认识到,本发明能够以多种方式(例如,方法和系统的方式)实现。本发明的数个创造性实施例被描述如下。
在一个实施例中,公开了一种用于识别流过电视的多媒体内容的方法。该方法包括从被选择用于在电视处呈现的多媒体内容中取回音频信号。所取回的音频信号被划分到较小间隔的多个区段中。分析特定的区段来识别声学调制(acoustic modulation)并基于该声学调制生成该特定区段的区别向量。该向量定义了音频信号的特定区段的独有指纹。使用该特定区段的向量来查询服务器上的内容数据库以获得匹配该特定区段的指纹的多媒体内容的内容信息。内容信息被用于识别与所接收的用于呈现的音频信号相匹配的多媒体内容的源和多媒体内容。
在另一实施例中,公开了一种用于识别流过电视的内容的方法。该方法包括从被选择用于在电视处呈现的内容中取回音频信号。音频信号被划分到较小间隔的多个区段中。分析音频信号的特定区段来识别声学调制以基于该声学调制生成针对特定区段的向量。该向量标识了与该特定区段的数据点有关的多个浮点数并且定义了音频信号的特定区段的独有音频指纹。内容数据库被搜索来识别带有具有最接近于该特定区段的多个浮点数的数据点的音频区段的一个或多个内容。内容数据库是对于多个音频区段的预计算出的数据点的存储库,该多个音频区段表示从多个内容提供商处获得的多个内容的多个音频信号的不同部分。带有某一音频区段的内容被识别出,该音频区段具有最接近特定区段的浮点数的数据点。使用带有与该特定区段相匹配的音频区段的内容的内容标识符来查询内容提供商数据库。响应于该查询,从内容提供商数据库中接收内容的一部分。该内容的一部分包括匹配特定区段的内容记录以及针对预定量时间的附加记录。从内容提供商数据库接收的内容的一部分被用于对流经电视的音频信号的后续匹配。
在另一实施例中,公开了一种用于匹配流经电视的内容的宣传媒体的方法。该方法包括从被选择用于在电视处呈现的内容中取回音频信号。音频信号被划分到较小间隔的多个区段中。分析音频信号的特定区段来识别调制特征并生成与关联于音频区段的数据点有关的多个浮点数的向量。该向量定义了音频区段的独有指纹。内容数据库被搜索来识别带有具有最接近于音频信号的特定区段的多个浮点数的数据点的音频区段的内容。内容数据库是对于多个音频区段的预计算出的数据点的存储库,该多个音频区段表示与从多个内容提供商处获得的多个内容相关联的多个音频信号的不同部分。使用特定区段的指纹来从服务数据库中识别出与该内容有关的宣传媒体。从内容提供商数据库中接收内容的一部分,从广告活动数据库中接收与所识别的宣传媒体有关的元数据和资产(assets)。使用所取回的元数据和资产对宣传媒体的多媒体内容进行组装以在电视上在与音频信号流有关的内容旁边进行呈现。
因此,发明的实施例提供了用于通过使用声学调制对从内容中提取的音频信号的一部分进行指纹化以及将该指纹与存储在内容数据库中的内容进行匹配来识别流经电视机的内容的源的高效搜索和匹配算法。匹配算法在提供高效匹配的同时使用了最优的系统资源。算法继续通过周期性的指纹化和匹配来验证匹配的有效性。算法使用周期性匹配的结果来识别和更新在内容旁边呈现的事件或附加信息。附加信息与当前流经电视机的内容有关并且以无缝的方式被提供在内容的旁边,从而增强了用户的电视观看体验。用户体验的满意度能够被充分利用来增加通过将适当的宣传媒体定位给用户的货币化。
本发明的其他方面将根据以下详细描述并结合附图变得清楚,该以下详细描述通过示例的方式阐述了本发明的原则。
附图说明
通过参考结合附图的以下描述可最佳地理解本发明。
图1示出了在本发明的一个实施例中,装备有算法的系统的简化概图,包括算法内用于识别流经电视的多媒体内容的源和内容的各种模块。
图2a-2f示出了对在本发明的一个实施例中使用算法的C和Matlab实现的音频信号的采样音频区段的调制特性进行比较的简图。
图3示出了在本发明的一个实施例中用于将特定区段与内容的相应区段相匹配的局部敏感哈希(locality sensitive hashing)技术的图形表示。
图4示出了在一个实施例中被用于通过分析音频区段的调制特性来生成区别向量的示意调制流程图。
图5示出了在本发明的一个实施例中算法遵循的用以生成音频区段的指纹的示意音频指纹流程图。
图6示出了在本发明的一个实施例中由算法用于识别流经电视的多媒体内容的处理流操作的流程图。
图7示出了在本发明的替换实施例中由算法用于识别流经电视的多媒体内容的各种处理流操作的流程图。
图8示出了识别用于将宣传媒体与流经电视的内容匹配的处理流操作的替换实施例。
具体实施方式
广泛地讲,本发明的实施例提供了识别流经电视的多媒体内容的方法和系统。在互联网使能的电视或者连接至电视的互联网使能的外部设备的处理器上执行的算法从被选择用于呈现的内容中选择音频区段、生成音频指纹并使用该音频指纹来识别多媒体内容的源和多媒体内容信息。算法利用音频区段的声学调制特性来执行匹配并且在以最优和有效的方式使用网络资源的同时通过周期性验证来确保正确的匹配。算法采用算法可用的本地缓存来存储匹配内容和执行周期性验证以确保所识别的内容继续与电视处的流内容有关。算法还使用多媒体内容信息来识别附加信息(例如,与内容有关的宣传媒体和/或事件)以在内容的旁边进行呈现。
在简要概述之后,现在参考附图来详细描述发明的各种实施例。图1示出了系统的简化概图,其标识了用于识别流至电视的多媒体内容的高层软件/硬件模块。系统包括呈现设备(例如,电视100)来请求和接收来自内容提供商的内容。在一个实施例中,电视包括被集成到电视中的互联网连接接口110-a。在另一实施例中,电视被连接至诸如带有集成的互联网使能接口的机顶盒110-b之类的外部设备。互联网连接/使能接口例如可包括替代通过诸如卫星信号或者有线电视格式之类的传统模式进行递送,通过互联网接收电视服务的互联网协议组(suite)。电视服务可包括直播电视、时移电视和按需视频(VOD)内容。通常,在互联网使能的电视中,内容保留在内容提供商的网络服务器上并且所请求的节目被流向电视。结果,电视中的互联网连接接口未意识到所请求的内容的源以及与该内容有关的信息。电视还装备有硬件音频捕获系统(HAC)115,该硬件音频捕获系统被配置为:与互联网使能/连接接口进行交互并且从从内容提供商的网络服务器中选择用于流向电视的内容中提取音频信号的一部分,其中被选择用于流处理的内容是响应于观看者的请求的并且能够是直播电视、时移电视和VOD内容中的任何一种。HAC与电视处可用的算法120(例如,音频处理算法)进行交互以发送捕获自互联网连接接口的音频信号用于进一步处理。
算法120接收音频信号的一部分并且将该部分音频信号划分为较小间隔的多个区段。在一个实施例中,被算法接收的该部分音频信号可被划分为5秒间隔的区段。然后算法选择特定的区段进行分析。在一个实施例中,算法可基于其内所包括的内容的有效载荷数据来选择进行分析的特定区段。然后算法分析该特定的音频区段来确定音频信号的声学调制并生成浮点数的区别向量。该向量基于特定区段的调制特性定义了音频信号的音频指纹。生成定义了音频指纹的区别向量的处理将在下文参考图1进一步描述。在一个实施例中,使用所生成的矢量,算法查询在与电视相关联的本地服务器上可用的内容数据库来找寻带有在服务器上可用的数据的指纹的匹配。将指纹与内容数据库中的内容匹配的处理将参考其他图在下文详细描述。在找到匹配后,算法从内容数据库获得包括多媒体内容的源的内容信息。算法可使用该内容信息来取回覆盖特定区段的时间的内容记录以及针对预定量时间的附加记录,并将其存储在本地缓存125中。本地缓存中的信息可被算法用来进一步验证流经电视的内容。
在另一实施例中,本地缓存可被用于预填充内容和相应的指纹,并且算法可使用本地缓存中的信息来找寻与音频信号的区段的匹配。在此实施例中,后端服务器基于以下内容来动态地收集内容相关的信息和相应的指纹信息:电视设备的用户通常观看什么节目、观看什么节目的频率更高、特定的地理区域的用户(使用用户的邮政编码)流行什么节目等等。当用户选择在电视上观看的内容时,电视处的算法请求服务器下载缓存。响应于来自算法的请求,服务器将不同子集的内容和相应的匹配指纹推送到电视的本地缓存上。然后算法使用本地缓存中的信息来识别用户所选择的内容。本地缓存中的信息能够被使用直到它到期。当该信息到期时,算法发送针对该内容和与该内容相关联的指纹的更新请求至后端服务器,并且后端服务器将转送恰当的内容和指纹信息来装载本地缓存。
在一个实施例中,算法通过查询一个或多个网络服务器上可用的一个或多个数据库来执行指纹匹配。例如,算法可首先生成音频信号的所选区段的指纹并且查询网络服务器上的内容数据库210来找寻指纹的匹配。内容数据库可为针对从多个内容提供商处获得的多个音频信号的多个部分的指纹的存储库。在一个实施例中,来自多个内容提供商的内容信息可以被提前获得并且被存储在对算法本地可用的服务器上的内容数据库中,从而使得内容能够被轻易地识别出而不管它被广播的位置和时间。内容数据库中的内容的音频部分可被指纹化,并且这些指纹可被存储在内容的旁边或者被存储在服务器上的分离的数据库中,该服务器装备有搜索软件并且用于当前被选择用于在电视处观看的内容的匹配。服务器上的搜索软件帮助搜索数据库并找寻内容的匹配。使用此信息,在电视的处理器上执行的算法然后查询第二服务器(例如,事件服务器或者商业信息服务(BIS)服务器)以确定是否存在为所选内容被流入的特定日期时间安排的针对此音频的任何(一个或多个)BIS服务、广告活动或事件。如果发现了针对该时间段的服务、事件或者广告活动,那么算法从广告活动数据库中抓取服务/事件/广告活动的元数据和资产来创建该服务/广告活动的应用或视频。应用或视频被呈现在流入电视中的内容的旁边并且提供了与内容有关的附加信息或宣传媒体。观看所选内容的观看者被提供了与正在观看的内容最相关的附加信息,从而丰富了用户的观看体验。算法提供了提取一小部分音频信号的特征并使用它来匹配和描述被选择进行流处理的完整视频内容的能力。
现在将参考图1详细描述特征提取和指纹化。在典型的音频/视频记录中,计算出的媒体的特征的顶部(peak)和转折(transition)在编辑、压缩和传输期间没有太大的变化。此外,在语音领域(speech world),已确定大多数的语音信息集中与4Hz左右。结果,算法使用调制声谱图(spectrogram)来捕获音频信号的调制特性并且使用音频调制指纹技术来识别视频的指纹。算法生成针对所选的音频信号的特定区段的随时间推移的声谱图并且查找在不同频率周围分布的能量。为了实现它,使用带通滤波器将所选区段内的音频信号划分到不同的波带/通道中。在一个实施例中,使用13个线性分隔的滤波器将所选的音频区段划分以获得13个不同的通道。与使用带通滤波器划分音频信号有关的附加信息在可从https://engineering.purdue.edu/~malcolm/interval/1998-010/获得的“音频工具箱(Auditory Toolbox)”中被描述,通过引用将该地址合并于此。可以合并一个或多个通道来提供更宽的通道用于分析。
在获得了不同通道的音频信号之后,算法通过采用每个通道的信号的绝对值来计算出每个通道中的调制能量并且然后使用截止频率在6Hz处的低通滤波器来对响应进行平滑化。调制能量是对通道中的时间信息的粗略测量。调制能量提供了对音频信号如何随时间变化的重要测量。在一个实施例中,算法使用快速傅里叶变换(FFT)算法来分析每个通道中的调制。根据FFT获得的量值提供了对于在每个频率处每个通道中的能量多少的测量。图5示出了在发明的一个实施例中算法遵循的用于生成从流向电视的内容中提取的音频区段的音频指纹的音频指纹流程图。如图所示,指纹是通过从流式内容中提取音频信号并将音频信号的特定区段通过滤波器带以将音频区段划分为多个不同频率处的通道来生成的。在每个通道处每个频率中的调制的量值被测量以确定在每个通道中每个频率处的能量分布。
只聚焦在频谱的量值上而忽略频谱的相位使得算法能够在即使音频数据在分析窗口中具有轻量位移时也能获得内容的相同指纹。使用调制声谱图,算法针对每个带通通道在从0Hz(DC)到大约6Hz的频率处计算每个通道的调制的18次测量。该18次测量是从通道数与调制频率的二维阵列中选择性地选取的。因此,利用13个通道的调制谱和在每个通道处的18次独立频率测量,算法计算出针对音频信号的所选区段的234个元素(即,13*18)的单个区别向量。向量中的每个元素是表示为浮点数的数据点。该区别向量简要地描述了音频信号在该较短区段内的调制并形成了音频信号的指纹。
图4示出了算法遵循的用于生成针对音频信号的音频区段的区别向量的调制流程图,该音频信号是从被选择用于在电视处进行流处理的内容中提取的。算法检查特定通道的声学调制并且使用FFT来生成特定通道的声学谱。来自声学谱的选择性数据点(234数据点)被选择来计算音频区段的向量。
图2a-2f示出了由算法生成并用来与来自内容提供商的内容进行匹配的音频信号声谱图。图2a、2b和2c是使用三调制语调测试的Matlab实现来生成的,该三调制语调测试利用经2Hz、3Hz和4Hz调制的频率调制441Hz、881Hz和1201Hz。当使用较低的频率调制器滤波器(例如,2Hz)时,带有较低调制频率的低通道被记录,如图2a(Matlab实现)所示。类似地,图2b示出了来自3Hz的稍高频率调制器滤波器的结果并且图2c示出了来自4Hz的更高频率调制器滤波器的结果。这里应当注意,通过使用Matlab实现方式生成的音频信号声谱图是示例性而不应被视为限制性的。可以使用诸如C实现方式之类的其他类型的实现方式,如图2d、2e和2f所示。能够从图2a-2f中注意到,来自C实现方式的结果在3个不同频率的每个频率处与来自调制器频率的Matlab实现方式的结果相似。另外,每个频率的声音具有其自身的独有指纹并且带有这些不同频率的音频信号将生成其自身独有的指纹组合。指纹越大,它就越容易进行匹配。为了取得较好的采样,在一个实施例中选择5秒的窗口进行分段和指纹化。用于对音频信号进行分段的时间段、通道的数目以及频率的数目是示例性的而不应被视为限制性的。
在生成针对特定音频区段的声谱图并且生成区别向量之后,算法使用该向量来找寻内容数据库中的内容的匹配。内容数据库可位于服务器上并且通过网络(例如,互联网)对算法可用。内容数据库是从多个内容提供商处接收到的内容的存储库,其中内容的音频信号已经被指纹化。音频信号的指纹被存储在内容的旁边或者被存储在分离的数据库中并且每个指纹映射到内容。算法可使用各种技术来找寻向量的匹配。在一个实施例中,算法使用随机化的算法(例如,局部敏感哈希(LSH)方法)来查找并找到内容数据库中的内容的匹配。当新内容被选择流向电视时,算法捕获内容的音频部分并将该内容划分到例如5秒的较小间隔的区段中。然后算法执行相同的分析(上文已经描述过)来获得所捕获的音频信号的特定区段的指纹并且通过使用向量的浮点数将所捕获的音频信号的指纹针对存储在数据库中的那些指纹进行匹配。应当注意到,即使所捕获的音频信号的内容与内容数据库中的音频信号相同,信号也可能不是精确匹配的。这可能由于这样的事实:数据库中的音频信号可能经历了不同的压缩技术并且与正在进行匹配的特定区段所关联的音频信号相比具有不同的时间偏移。因此,直接和常规的匹配将不能提供所期望的匹配结果。为了适应压缩技术中的这种变化,算法可使用LSH技术来找寻最近邻匹配(nearest neighbormatch)。
图3示出了使用LSH匹配技术的、特定音频区段的指纹与来自内容数据库的预定指纹的比较。LSH匹配使用来自流向电视的新内容的音频信号的区段的234个浮点数中的每个并且尝试与内容数据库中的内容的音频信号的相应数据点进行匹配。如上所述,234个浮点数是使用调制声谱图获得的。应当理解,生成234个浮点数的向量以及使用LSH匹配技术来匹配234个浮点数的向量是示例性的而不应被视为限制性的。因此,可采用替换方式对音频信号的区段进行匹配。算法计算内容数据库中的音频区段的每个数据点与音频信号的特定区段的相应浮点数之间的距离。当算法找到具有的数据点更接近于特定音频信号的相应数据点的多个音频信号时,算法确定数据点最接近由特定音频区段的向量中的浮点数定义的数据点的内容的音频信号。当不止一个内容具有最接近特定音频区段的数据点的音频信号时,我们通过彩用被选择进行流处理的内容的后续音频区段来进行进一步的采样、分析后续音频区段以定义第二向量、并使用第二向量来找寻匹配。采样、分析和匹配可以是连续的直到发现良好的匹配。关于局部敏感哈希技术的更多信息,可参考Malcolm Slaney和Michael Casey的、题为“Local-Sensitive Hashing for Finding Nearest Neighbors(用于找寻最近邻的局部敏感哈希)”的IEEE公开(IEEE Signal Processing magazine,March2008),通过引用将其合并于此。
内容的匹配使得算法能够识别内容的源并且能够取回与被选择用于流向电视的内容相关联的信息。在一个实施例中,算法请求并接收来自服务器的内容,其包括针对它所匹配的特定区段的时段的内容的指纹的匹配以及还有针对预定量时间的附加到来的指纹。服务器与多个内容提供商进行交互并且从这些源中接收内容。附加内容被用于对于音频信号的后续匹配。在一个实施例中,内容和附加的内容被接收并被存储在算法可用的本地缓存中。算法可通过验证音频信号的一个或多个后续区段继续与存储与本地缓存中的内容的音频区段相匹配来确保音频区段被匹配到正确的内容。如果音频信号的后续音频区段与内容的音频区段相匹配,那么就无需查询服务器以获得内容。替代地,内容可以从本地缓存中提供。在另一方面,如果后续音频区段不与存储于本地缓存中的内容相匹配,那么来自内容数据库的、匹配特定音频区段的新内容被取回并被存储在本地缓存中以用于后续匹配。
存在使用当前实施例的音频指纹匹配来缓存和分布工作的多个选项。一些最重要的选项包括提前暗示(advance hinting)、本地缓存、和验证。提前暗示是一种用所匹配的内容标识符和到来指纹的序列来应答单个指纹请求的方法。与内容ID一起新接收的指纹被存储在TV上的本地缓存中用于后续的参考和验证。到来的指纹允许TV或连接到TV的机顶盒识别出什么内容将在后面到来并简单地对照存储在本地缓存中的到来指纹检查新计算的内容的指纹。如果新计算的指纹与所期望的到来指纹相匹配,那么内容提供商源不存在变化,并且无需向内容提供商查询内容标识符。
在一个实施例中,本地缓存选项被调用,其中匹配音频信号的指纹的内容和指纹被下载并被存储在本地缓存中以与音频信号的到来的指纹进行匹配。在另一实施例中,内容和与多个内容有关的一组指纹被下载到本地设备(即,TV)并被存储在本地缓存中。在此实施例中,该组指纹可能与针对特定时段的时间所安排的内容有关。客户端能够周期性地请求和接收该组指纹,例如每天一次或者每三个小时一次等等。在一个实施例中,客户端根据音频信号计算出指纹,并且只在内容与存储与本地缓存中的已知指纹中的一个匹配的情况下对该内容执行动作。通过只在存在匹配时执行动作,网络资源被保存下来,因为算法避免了不必要的为了找寻匹配的服务器访问。
在一个实施例中,验证选项被调用,其中算法将请求与基于对内容的最佳猜测的内容标识符一同发送至服务器。在一个实施例中,内容的最佳猜测可基于先前的查询。接收这样的请求的服务器只验证并且确认从TV中的算法接收到的指纹确实是与在请求中获得的内容标识符有关的内容的所期望指纹。此选项也节省了网络资源,因为服务器已经被提供了足够的与内容有关的信息来识别该内容。因此,本地缓存与指纹一起提供了对于被选择用于在TV处呈现的内容的更快和精确的匹配,同时保存了网络资源。
在发明的一个实施例中,内容标识信息被算法用来识别事件、宣传媒体或者广告活动并抓取广告活动或事件的元数据和资产。在此实施例中,源数据和资产被用于组装在内容的旁边呈现的视频或应用。一旦视频或应用被呈现在内容的旁边,算法通过继续执行对于音频信号的后续区段的匹配来继续验证匹配的有效性,从而确保该内容没有随时间变化。如果内容发生了变化,那么算法重新初始化本地缓存中的数据并开始音频信号的提取、区别向量的生成、以及该向量到内容数据库中的内容的匹配,以识别新内容的源和与新内容有关的信息,从而使得宣传媒体或事件能够被识别并被组装以用于与新内容的呈现。
图6示出了在发明的一个实施例中用于识别流经电视的多媒体内容的操作的流程图。方法始于操作710,其中从被选择用于在电视处呈现的多媒体内容中取回音频信号。多媒体内容可以从包括卫星提供商、有线提供商、DVR、蓝光提供商、来自互联网的直播媒体在内的内容源中的任何一个处获得。多媒体内容可被存储在内容提供商服务器上并且在观看者的请求下被流向电视。结果,内容的源或者内容信息在电视的互联网连接接口或者连接至电视的外部设备处不是可用的。为了识别内容的源和内容信息,算法可将音频信号划分为较小间隔的多个区段,如操作720所述。
音频信号的特定区段被分析以识别特定区段中的声学调制,如操作730所述。特定区段是基于其中所包括的有效载荷数据而被选择用于分析的。对特定区段的分析的结果是对区别浮点数表示的多个数据点的标识。多个浮点数被用于生成向量。使用浮点数的向量来查询服务器上的内容数据库,如操作740所述。服务器装备有帮助确定来自特定内容提供商的内容的位置的搜索算法,其中特定内容提供商的内容包括这样的数据区段,该数据区段的数据点与特定区段的浮点数相匹配或者紧密接近。内容数据库中的内容是从多个源中获得的,并且这些内容的音频信号被预先指纹化并与内容一起存储或者存储在分离的数据库中且被映射到内容数据库中的内容。结果,当来自特定内容提供商的内容的音频区段与流向电视的内容的特定区段相匹配时,从该内容提供商处取回与该内容有关的信息以及该内容的源。所取回的信息可以被存储在本地缓存中并被用于对流经电视的内容的进一步验证。
图7示出了用于识别流经电视的内容的本发明的替换实施例。处理开始于操作810,其中电视内的算法识别出对于流经电视的特定内容的选择。内容能够来自任一内容提供商。来自所选内容的音频信号被取回。音频信号被划分为多个较小的间隔,如操作820所述。在一个实施例中,每个区段划分有预设的持续时间,例如5秒。多个区段内的特定区段被选择并被分析以识别该特定区段内的声学调制,如操作830所述。声学调制是通过将音频区段通过带通滤波器并使用FFT检查该特定区段的调制特性以识别音频区段的每个频率在每个通道处的能量分布来获得的。对调制特性的检查的结果是标识出由浮点数表示的选择性数据点组。该组浮点数被用于计算区别向量。该向量定义了特定区段的独有音频指纹。
内容数据库被搜索以识别带有具有与特定区段的向量的浮点数匹配或者紧密接近的数据点的音频区段的一个或多个内容,如操作840所述。如前所述,内容数据库包括来自多个内容提供商的内容,该内容具有已经被算法使用相同的技术进行指纹化的音频区段。当来自一个或多个内容提供商的不止一个音频区段包括与特定音频区段的数据点匹配的数据点时,算法识别具有与该特定区段的浮点数最接近的音频区段的内容。然后算法获得带有与特定区段的音频区段紧密匹配的音频区段的内容的内容标识符,如操作850所述。使用诸如内容标识符之类从内容数据库获得的信息对内容提供商数据库进行查询,如操作860所述。响应于该查询,所标识的内容的ID部分被从内容提供商数据库接收,如操作870所述。该部分可包括匹配特定区段的内容的标识符和针对预定量时间的附加指纹。在一个实施例中,附加记录可包括除了与特定区段有关的5秒之外的关于额外的15秒钟的记录。从内容提供商获得的音频内容的记录被存储在本地缓存中并被用于进一步验证和匹配宣传媒体或事件。
图8示出了用于匹配流经电视的内容的宣传媒体的另一替换实施例。该方法开始于操作910,其中从被选择用于在电视处呈现的内容中取回音频信号。音频信号被划分为较小间隔的多个区段,如操作920所述。音频信号的特定区段被选择用于分析以识别调制特性,如操作930所述。特定的音频区段可基于其内所包含的有效载荷来选择。对特定区段的分析包括:生成特定区段的声学声谱图并识别声学声谱图中与数据点有关的、定义了音频信号的特定区段的声学调制的多个浮点数。区别向量被计算为浮点数的函数。该向量定义了音频区段的独有音频指纹。
在操作940,内容数据库被搜索以识别这样的内容,该内容包括带有与特定音频区段的多个浮点数匹配或者紧密接近的数据点的音频区段。内容数据库是多个音频区段的预计算出的数据点的存储库,该多个音频区段表示从多个内容提供商处获得的多个内容的多个音频信号的不同部分。在识别出带有与特定音频区段匹配的音频信号的内容后,可使用内容标识符从内容提供商处取回与内容有关的内容信息和内容的源。
使用内容标识符,使用特定区段的指纹来从服务数据库中识别出与内容有关的宣传媒体或事件,如操作950所述。内容提供商数据库被查询以获得来自内容提供商数据库的内容并且广告活动数据库被查询以获得与所识别的宣传媒体有关的元数据和资产,如操作960所述。处理结束于对来自从内容提供商数据库获得的内容的多媒体内容的组装以及使用从广告活动数据库取回的元数据和资产对宣传媒体内容/应用的组装以用于在电视处进行呈现,如操作970所述。宣传媒体内容在发明的一个实施例中可被以小工具(widget)的形式在内容旁边或者分离地呈现。
通过借助与内容有关的音频信号的较小区段的音频指纹化提取内容的特征来确定特定的用户正在他/她的电视上观看什么内容并识别与该内容有关的特定应用或宣传多媒体以用于在内容旁边的呈现,算法表现得像为用户创建广播交互服务(BIS)的潜在桥梁。使用基于其调制相似度来匹配两个信号的调制检测处理,较小区段的音频被与为特定时间段安排的、从内容提供商/广播商接收的多个内容的音频进行匹配。该方法使用了更少的CPU资源和时间但提供了更高效和精确的匹配。除了调制匹配之外,算法还通过使得针对时间区段以及针对附加预定量时间的匹配内容的记录能够被本地存储于电视的本地缓存中并且通过继续验证所识别的内容继续与被选择用于在电视处呈现的多媒体内容的音频信号匹配来提供更快的匹配。当用户改变选择的用于观看的多媒体内容时,算法确定存储在本地缓存中的内容不再匹配并冲除内容。然后算法使用如前所述的HAC和LSH技术进行音频指纹化,使得其成为更健全和高效的算法工具。
本发明的实施例可被在多种计算机系统配置中实现,包括手持设备、微处理器系统、基于微处理器或可编程的消费者电子产品、迷你计算机,大型计算机等。本发明还能够被实现在分布式计算环境中,其中,任务被经由基于有线或无线网络所链接的远程处理设备所执行。
将上述实施例牢记在心,应当理解,本发明能够使用多种计算机实现的操作,涉及存储在计算机系统上的数据。这些操作能够包括对数据的物理变换、数据的保存、和数据的显示。这些操作是那些需要对物理量的物理操纵的操作。通常但不必须,这些量以能够被存储、转换、组合、比较和其他操纵方式的电或电磁信号的形式存在。数据还能够在通过网络进行捕获和传输期间被存储在网络中。存储设备例如可以是在网络节点和与服务器相关联的存储器,以及其他计算设备(包括便携式设备)处。
这里所描述的任意操作(其形成了本发明的一部分)是有用的机器操作。本发明还涉及用于执行这些操作的设备或装置。该装置可以是针对所需的目的被具体建造的,或该装置可以是通用计算机,其被存储在计算机上的计算机程序有选择性地激活或配置。具体地,多种通用机器可被与根据此处的教导所写出的计算机程序一起使用,或者建造一个更专业的装置以执行所需的操作是更方便的。
本发明还能够被体现为在计算机可读介质上的计算机可读代码。计算机可读介质是任意可存储数据的数据存储设备,此后其能够被计算机系统读出。计算机可读介质还能被分布于与网络耦合的计算机系统中,使得计算机可读代码以分布式模式被存储和执行。
虽然出于清晰理解的目的,前述发明在一些细节上进行了描述,但很明显,在所附权利要求的范围内,可实施某种变更和修改。相应地,本实施例应被认为是说明性的而非限制性的,并且,本发明并不限于这里给出的细节,而是可在所附权利要求的范围和等同物内被修改。

Claims (20)

1.一种用于识别流经电视的多媒体内容的方法,所述方法由所述电视的处理器执行,包括:
从被选择用于在所述电视处呈现的多媒体内容中取回音频信号;
将所述音频信号划分为较小间隔的多个区段;
分析特定区段来识别所述特定区段中的声学调制,该分析基于所述声学调制生成所述特定区段的区别向量,该向量定义了所述音频信号的所述特定区段的独有音频指纹;以及
使用音频信号的所述特定区段的向量对服务器上的内容数据库进行查询,以获得与所述特定区段的指纹相匹配的多媒体内容的内容信息,所述内容信息被用于从内容提供商获得与匹配所接收的用于呈现的音频信号的所述多媒体内容有关的信息。
2.如权利要求1所述的方法,其中所述音频信号是从由内容提供商流向所述电视的多媒体内容中捕获的,或者是从数字多媒体记录设备中获得的。
3.如权利要求1所述的方法,其中所述较小的间隔是5秒左右的预定义间隔。
4.如权利要求1所述的方法,其中分析还包括:
生成声学声谱图来识别音频信号的所述特定区段在一个或多个频率处的声学调制特性,其中所述声学调制特性散布于多个通道;
在每个通道处检查所述声学调制来测量量值,所述量值标识了在每个频率处每个通道中的能量值;以及
将所述音频信号的特定区段的所述向量计算为在与所述音频信号的特定区段相关联的时间段针对每个频率在每个通道中所测量的量值的函数,其中所述向量标识了表示所述音频信号的特定区段的独有指纹的数据点的多个浮点数。
5.如权利要求4所述的方法,其中对所述声波调制的检查以及对量值的测量是使用快速傅里叶变换技术实现的。
6.如权利要求4所述的方法,其中查询还包括:
搜索所述内容数据库以识别带有音频区段的一个或多个多媒体内容,该音频区段具有最接近于所述音频信号的特定区段的所述多个浮点数的数据点,所述内容数据库为多个音频区段的预计算出的数据点的存储库,所述多个音频区段表示从多个内容提供商获得的多媒体内容的多个音频信号的不同部分;
使用迭代计算法计算所识别的多媒体内容的每个音频区段的数据点与所述特定区段的浮点数之间的距离;以及
选择具有最接近于所述浮点数的数据点的多媒体内容,其中该多媒体内容是使用独有标识符来进行引用的。
7.如权利要求6所述的方法,还包括使用所述独有标识符从所述内容提供商取回与条目有关的多媒体内容,所述多媒体内容包括匹配所述特定区段的多媒体内容以及与当前正在所述电视处呈现的音频信号有关的、预定量时间的附加多媒体内容,所取回的多媒体内容被存储在所述电视的本地缓存中以用于对继续流经所述电视的内容的音频信号的后续验证。
8.如权利要求6所述的方法,还包括:
当不止一个多媒体内容具有最接近于所述特定区段的浮点数的数据点时,
通过选择当前被选择在所述电视处呈现的所述内容的音频信号的一个或多个附加区段来执行附加匹配。
9.如权利要求1所述的方法,还包括:
识别来自服务数据库的、与被安排用于呈现的多媒体内容有关的事件或宣传媒体,所述事件或宣传媒体是通过使用来自所述特定区段的指纹中的信息来识别的;
从广告活动数据库取回与所识别的事件或宣传媒体有关的元数据和资产;以及
使用所取回的元数据和资产来组装与所述事件或宣传媒体相关联的应用或多媒体内容,所组装的、与事件或宣传媒体有关的应用或多媒体内容在电视处在与所述音频信号有关的多媒体内容的旁边呈现。
10.一种用于识别流经电视的内容的方法,所述方法由所述电视的处理器执行,包括:
从被选择用于在所述电视处呈现的内容中取回音频信号;
将所述音频信号划分为较小间隔的多个区段;
分析特定区段来识别所述特定区段中的声学调制,该分析基于所述声学调制生成所述特定区段的向量,所述向量标识了与所述特定区段的数据点有关的多个浮点数,所述向量定义了所述音频信号的所述特定区段的独有音频指纹;
搜索内容数据库以识别带有音频区段的一个或多个内容,该音频区段具有最接近于所述特定区段的所述多个浮点数的数据点,所述内容数据库为多个音频区段的预计算出的数据点的存储库,所述多个音频区段表示从多个内容提供商获得的多个内容的多个音频信号的不同部分;
获得具有这样的音频区段的内容的内容标识符,该音频区段具有最接近于所述特定区段的浮点数的数据点;
使用所述内容标识符向内容提供商数据库查询与带有匹配特定音频区段的音频区段的内容有关的信息;以及
响应于所述查询,从所述内容提供商数据库接收所述内容的一部分,该部分内容包括匹配所述特定区段的内容记录以及针对预定量时间的附加记录,所述附加记录定义了所述多媒体内容的音频指纹的序列,从所述内容提供商数据库接收的该部分内容记录和附加记录被用于所述音频信号的后续区段的进一步匹配。
11.如权利要求10所述的方法,其中分析还包括:
生成声学声谱图来识别音频信号的所述特定区段在一个或多个频率处的声学调制特性,其中所述声学调制特性散布于多个通道;
在每个通道处检查所述声学调制来测量量值,所述量值标识了在每个频率处每个通道中的能量值,所述检查识别与音频信号的所述特定区段的声学调制有关的数据点;以及
将所述音频信号的特定区段的所述向量计算为在与所述音频信号的特定区段相关联的时间段针对每个频率在每个通道中所测量的量值的函数,其中所述向量标识了与所述特定区段的数据点有关的多个浮点数,所述向量表示所述音频信号的特定区段的独有指纹。
12.如权利要求10所述的方法,其中识别所述内容标识符还包括:
使用迭代计算法计算所述内容数据库中的每个内容的数据点与所述音频区段的相应浮点数之间的距离;以及
识别带有与所述音频区段的相应浮点数最接近的一组数据点的内容。
13.如权利要求10所述的方法,还包括:
将从所述内容提供商数据库中接收的该部分内容记录和附加记录存储在所述电视的处理器可访问的本地缓存中,以用于对流经所述电视的音频信号的内容的进一步验证。
14.如权利要求13所述的方法,还包括:
周期性地生成用于流式音频信号的附加区段的附加指纹;以及
将所述附加指纹与存储在所述本地缓存中的所述内容和附加记录的指纹和指纹序列进行比较以确定所述流式音频信号是否继续与所述本地缓存中的内容相匹配。
15.如权利要求14所述的方法,还包括:
当所述附加指纹不与存储在所述本地缓存中的内容的指纹匹配时,
从所述本地缓存中清除所述内容;
通过查询所述内容数据库来启动搜索以使用所述附加指纹来识别与所述附加区段匹配的内容;以及
从所述内容提供商数据库取回内容以存储在所述本地缓存中用于后续验证。
16.如权利要求10所述的方法,还包括:
识别来自服务数据库的、与所述内容有关的宣传媒体,所述宣传媒体是通过使用来自所述特定区段的指纹中的信息来识别的;
从广告活动数据库取回与所识别的宣传媒体有关的元数据和资产;以及
使用所取回的元数据和资产来组装针对所述宣传媒体的多媒体内容,所组装的、与所述宣传媒体有关的多媒体内容在电视处在与所述音频信号有关的内容的旁边呈现。
17.一种用于识别流经电视的内容的方法,所述方法由所述电视的处理器执行,包括:
取回与被安排用于呈现的多个内容相关联的一组音频指纹;
将该组音频指纹存储在于所述电视相关联的本地缓存中;
接收在所述电视上呈现内容的请求;
取回被选择在所述电视处呈现的内容的音频信号;
分析所述音频信号的特定区段来识别所述特定区段中的声学调制,该分析基于所述声学调制生成针对所述特定区段的向量,所述向量标识了与所述特定区段的数据点有关的多个浮点数,所述向量定义了所述音频信号的特定区段的独有音频指纹;
通过比较所述特定区段的音频指纹与所述多个内容的音频指纹,确定是否在所述本地缓存内找到针对所述音频信号的特定区段的所述音频指纹的匹配;
当在所述本地缓存中找到匹配时,使用与所述特定区段的音频指纹相匹配的特定内容的内容标识符查询内容提供商数据库以获得所述特定内容的一部分;以及
响应于来自所述用户的请求,呈现从所述内容提供商数据库获得的所述特定内容。
18.如权利要求17所述的方法,还包括:
当所述音频信号的特定区段的音频指纹不与所述本地缓存中存储的所述多个内容中的任何一个的指纹匹配时,
将请求转发至内容数据库,来验证与所述音频信号相关联的所述音频指纹的可能匹配,其中所述请求包括来自前一查询的内容的内容标识符;
从所述内容数据库接收对于所述音频信号的音频指纹的可能匹配的确认。
19.如权利要求17所述的方法,还包括:
周期性地生成用于流式音频信号的附加区段的附加指纹;以及
通过将所述附加指纹与存储在所述本地缓存中的所述特定内容的相应指纹进行比较来验证所述附加指纹是否继续与所述本地缓存中的所述特定内容匹配。
20.如权利要求17所述的方法,其中被安排进行呈现的该组音频指纹被周期性地取回并被存储在所述本地缓存中,并且其中所述本地缓存在存储所取回的音频指纹之前被清除。
CN201280061913.3A 2011-12-20 2012-11-30 用于内容识别的音频指纹 Active CN103999473B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US13/332,331 2011-12-20
US13/332,331 US8949872B2 (en) 2011-12-20 2011-12-20 Audio fingerprint for content identification
PCT/US2012/067487 WO2013095893A1 (en) 2011-12-20 2012-11-30 Audio fingerprint for content identification

Publications (2)

Publication Number Publication Date
CN103999473A true CN103999473A (zh) 2014-08-20
CN103999473B CN103999473B (zh) 2018-02-06

Family

ID=48611641

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201280061913.3A Active CN103999473B (zh) 2011-12-20 2012-11-30 用于内容识别的音频指纹

Country Status (7)

Country Link
US (1) US8949872B2 (zh)
EP (1) EP2795913B1 (zh)
CN (1) CN103999473B (zh)
CA (1) CA2856843C (zh)
HK (1) HK1199344A1 (zh)
TW (1) TWI516100B (zh)
WO (1) WO2013095893A1 (zh)

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105847878A (zh) * 2016-03-23 2016-08-10 乐视网信息技术(北京)股份有限公司 数据推荐方法及装置
CN106233746A (zh) * 2014-08-21 2016-12-14 松下知识产权经营株式会社 内容辨识装置以及内容辨识方法
WO2017050175A1 (zh) * 2015-09-24 2017-03-30 阿里巴巴集团控股有限公司 音频识别方法和系统
CN106663102A (zh) * 2014-04-04 2017-05-10 Teletrax有限公司 用于生成信息信号的指纹的方法和装置
CN107533850A (zh) * 2015-04-27 2018-01-02 三星电子株式会社 音频内容识别方法和装置
CN107851103A (zh) * 2015-04-23 2018-03-27 索伦森媒体有限公司 自动内容辨识指纹序列匹配
CN107864678A (zh) * 2015-06-26 2018-03-30 亚马逊技术公司 对视觉指示器的检测和解译
CN108370447A (zh) * 2015-12-10 2018-08-03 三星电子株式会社 内容处理装置及其内容处理方法、服务器、服务器的信息提供方法和信息提供系统
CN109891404A (zh) * 2016-08-15 2019-06-14 因特拉松尼克斯有限公司 音频匹配
WO2019184517A1 (zh) * 2018-03-29 2019-10-03 北京字节跳动网络技术有限公司 一种音频指纹提取方法及装置
CN111402926A (zh) * 2020-03-19 2020-07-10 中国电影科学技术研究所 影院放映内容的检测方法、装置、设备及智能网络传感器

Families Citing this family (72)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10631068B2 (en) 2008-11-26 2020-04-21 Free Stream Media Corp. Content exposure attribution based on renderings of related content across multiple devices
US9154942B2 (en) 2008-11-26 2015-10-06 Free Stream Media Corp. Zero configuration communication between a browser and a networked media device
US10419541B2 (en) 2008-11-26 2019-09-17 Free Stream Media Corp. Remotely control devices over a network without authentication or registration
US10567823B2 (en) 2008-11-26 2020-02-18 Free Stream Media Corp. Relevant advertisement generation based on a user operating a client device communicatively coupled with a networked media device
US9986279B2 (en) 2008-11-26 2018-05-29 Free Stream Media Corp. Discovery, access control, and communication with networked services
US10334324B2 (en) 2008-11-26 2019-06-25 Free Stream Media Corp. Relevant advertisement generation based on a user operating a client device communicatively coupled with a networked media device
US9961388B2 (en) 2008-11-26 2018-05-01 David Harrison Exposure of public internet protocol addresses in an advertising exchange server to improve relevancy of advertisements
US8180891B1 (en) 2008-11-26 2012-05-15 Free Stream Media Corp. Discovery, access control, and communication with networked services from within a security sandbox
US9519772B2 (en) 2008-11-26 2016-12-13 Free Stream Media Corp. Relevancy improvement through targeting of information based on data gathered from a networked device associated with a security sandbox of a client device
US10977693B2 (en) 2008-11-26 2021-04-13 Free Stream Media Corp. Association of content identifier of audio-visual data with additional data through capture infrastructure
US10880340B2 (en) 2008-11-26 2020-12-29 Free Stream Media Corp. Relevancy improvement through targeting of information based on data gathered from a networked device associated with a security sandbox of a client device
US20110307786A1 (en) * 2010-06-11 2011-12-15 Brian Shuster Method and apparatus for bookmarking and retrieval of video content
US9461759B2 (en) 2011-08-30 2016-10-04 Iheartmedia Management Services, Inc. Identification of changed broadcast media items
US8586847B2 (en) * 2011-12-02 2013-11-19 The Echo Nest Corporation Musical fingerprinting based on onset intervals
US9292894B2 (en) 2012-03-14 2016-03-22 Digimarc Corporation Content recognition and synchronization using local caching
EP2654315A1 (en) * 2012-04-18 2013-10-23 Harman International Industries, Incorporated Multimedia system and method of performing a playback by means of a multimedia system
US9235867B2 (en) * 2012-06-04 2016-01-12 Microsoft Technology Licensing, Llc Concurrent media delivery
US8843952B2 (en) 2012-06-28 2014-09-23 Google Inc. Determining TV program information based on analysis of audio fingerprints
US9113203B2 (en) 2012-06-28 2015-08-18 Google Inc. Generating a sequence of audio fingerprints at a set top box
US9661361B2 (en) * 2012-09-19 2017-05-23 Google Inc. Systems and methods for live media content matching
US9460204B2 (en) * 2012-10-19 2016-10-04 Sony Corporation Apparatus and method for scene change detection-based trigger for audio fingerprinting analysis
US9798731B2 (en) * 2013-03-06 2017-10-24 Dell Products, Lp Delta compression of probabilistically clustered chunks of data
EP2854317A1 (en) * 2013-09-26 2015-04-01 Alcatel Lucent Method for providing a client device with a media asset
US10002191B2 (en) 2013-12-31 2018-06-19 Google Llc Methods, systems, and media for generating search results based on contextual information
US9456237B2 (en) 2013-12-31 2016-09-27 Google Inc. Methods, systems, and media for presenting supplemental information corresponding to on-demand media content
US9859871B2 (en) * 2014-03-19 2018-01-02 Chip Engine, LLC Radio to tune multiple stations simultaneously and select programming segments
US11256798B2 (en) 2014-03-19 2022-02-22 Bluefin Payment Systems Llc Systems and methods for decryption as a service
DK3518570T3 (da) * 2014-03-19 2021-01-18 Bluefin Payment Sys Llc Systemer og fremgangsmåder til fremstilling af fingeraftryk til krypteringsindretninger
US9461973B2 (en) 2014-03-19 2016-10-04 Bluefin Payment Systems, LLC Systems and methods for decryption as a service
US20150301718A1 (en) * 2014-04-18 2015-10-22 Google Inc. Methods, systems, and media for presenting music items relating to media content
US20150302086A1 (en) 2014-04-22 2015-10-22 Gracenote, Inc. Audio identification during performance
US9894413B2 (en) * 2014-06-12 2018-02-13 Google Llc Systems and methods for locally detecting consumed video content
CN104023251B (zh) 2014-06-13 2015-08-19 腾讯科技(深圳)有限公司 基于视频的互动方法和系统
US9946769B2 (en) 2014-06-20 2018-04-17 Google Llc Displaying information related to spoken dialogue in content playing on a device
US9838759B2 (en) 2014-06-20 2017-12-05 Google Inc. Displaying information related to content playing on a device
US9805125B2 (en) 2014-06-20 2017-10-31 Google Inc. Displaying a summary of media content items
US10206014B2 (en) 2014-06-20 2019-02-12 Google Llc Clarifying audible verbal information in video content
TWI569257B (zh) * 2014-07-04 2017-02-01 玄舟科技有限公司 音訊處理裝置及其音訊處理方法
US9905233B1 (en) 2014-08-07 2018-02-27 Digimarc Corporation Methods and apparatus for facilitating ambient content recognition using digital watermarks, and related arrangements
WO2016024172A1 (en) * 2014-08-14 2016-02-18 Yandex Europe Ag Method of and a system for matching audio tracks using chromaprints with a fast candidate selection routine
US9881083B2 (en) 2014-08-14 2018-01-30 Yandex Europe Ag Method of and a system for indexing audio tracks using chromaprints
US10762533B2 (en) * 2014-09-29 2020-09-01 Bellevue Investments Gmbh & Co. Kgaa System and method for effective monetization of product marketing in software applications via audio monitoring
GB2531700A (en) * 2014-10-09 2016-05-04 Bigears Digital Services Ltd Methods for identifying and monitoring use of audio entities
US9948997B2 (en) * 2015-02-25 2018-04-17 Excalibur Ip, Llc Providing interactivity options for television broadcast content
US9743138B2 (en) 2015-07-31 2017-08-22 Mutr Llc Method for sound recognition task trigger
US9913056B2 (en) 2015-08-06 2018-03-06 Dolby Laboratories Licensing Corporation System and method to enhance speakers connected to devices with microphones
US11317168B2 (en) 2015-08-13 2022-04-26 Arris Enterprises Llc System and method for detecting advertisements in multimedia assets
US9836535B2 (en) * 2015-08-25 2017-12-05 TCL Research America Inc. Method and system for content retrieval based on rate-coverage optimization
US10075751B2 (en) * 2015-09-30 2018-09-11 Rovi Guides, Inc. Method and system for verifying scheduled media assets
US9813781B2 (en) 2015-10-27 2017-11-07 Sorenson Media, Inc. Media content matching and indexing
US10349141B2 (en) 2015-11-19 2019-07-09 Google Llc Reminders of media content referenced in other media content
FR3044508A1 (fr) 2015-11-27 2017-06-02 Orange Procede de synchronisation d'un flux audio alternatif
KR102560635B1 (ko) 2015-12-28 2023-07-28 삼성전자주식회사 컨텐트 인식 장치 및 그 동작 방법
US10034053B1 (en) 2016-01-25 2018-07-24 Google Llc Polls for media program moments
US9786298B1 (en) 2016-04-08 2017-10-10 Source Digital, Inc. Audio fingerprinting based on audio energy characteristics
US10951935B2 (en) 2016-04-08 2021-03-16 Source Digital, Inc. Media environment driven content distribution platform
US10397663B2 (en) 2016-04-08 2019-08-27 Source Digital, Inc. Synchronizing ancillary data to content including audio
TWI612516B (zh) * 2016-08-25 2018-01-21 財團法人資訊工業策進會 聲紋辨識裝置、聲紋辨識方法及其電腦程式產品
US10136185B2 (en) 2016-10-25 2018-11-20 Alphonso Inc. System and method for detecting unknown TV commercials from a live TV stream
US10108718B2 (en) * 2016-11-02 2018-10-23 Alphonso Inc. System and method for detecting repeating content, including commercials, in a video data stream
WO2018117619A1 (en) * 2016-12-21 2018-06-28 Samsung Electronics Co., Ltd. Display apparatus, content recognizing method thereof, and non-transitory computer readable recording medium
US11711350B2 (en) 2017-06-02 2023-07-25 Bluefin Payment Systems Llc Systems and processes for vaultless tokenization and encryption
US10311421B2 (en) 2017-06-02 2019-06-04 Bluefin Payment Systems Llc Systems and methods for managing a payment terminal via a web browser
US11418858B2 (en) 2017-09-01 2022-08-16 Roku, Inc. Interactive content when the secondary content is server stitched
US11234060B2 (en) 2017-09-01 2022-01-25 Roku, Inc. Weave streaming content into a linear viewing experience
US10346474B1 (en) 2018-03-30 2019-07-09 Alphonso Inc. System and method for detecting repeating content, including commercials, in a video data stream using audio-based and video-based automated content recognition
TWI678668B (zh) * 2018-09-04 2019-12-01 誠屏科技股份有限公司 主動式廣告系統及其方法
US11166077B2 (en) 2018-12-20 2021-11-02 Rovi Guides, Inc. Systems and methods for displaying subjects of a video portion of content
US11076180B2 (en) * 2019-04-04 2021-07-27 Focus IP Inc. Concurrent media stream aggregate fingerprinting
WO2020232162A1 (en) 2019-05-13 2020-11-19 Bluefin Payment Systems Llc Systems and processes for vaultless tokenization and encryption
US11245959B2 (en) * 2019-06-20 2022-02-08 Source Digital, Inc. Continuous dual authentication to access media content
US11133037B1 (en) * 2020-07-17 2021-09-28 Idomoo Ltd System and method for generating dynamic media

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070055500A1 (en) * 2005-09-01 2007-03-08 Sergiy Bilobrov Extraction and matching of characteristic fingerprints from audio signals
US20080066099A1 (en) * 2006-09-11 2008-03-13 Apple Computer, Inc. Media systems with integrated content searching
CN101663708A (zh) * 2007-04-17 2010-03-03 韩国电子通信研究院 用于按照索引信息搜索音频指纹的系统和方法
CN101673262A (zh) * 2008-09-12 2010-03-17 未序网络科技(上海)有限公司 音频内容的搜索方法
US20110041154A1 (en) * 2009-08-14 2011-02-17 All Media Guide, Llc Content Recognition and Synchronization on a Television or Consumer Electronics Device

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7930546B2 (en) 1996-05-16 2011-04-19 Digimarc Corporation Methods, systems, and sub-combinations useful in media identification
US7013301B2 (en) * 2003-09-23 2006-03-14 Predixis Corporation Audio fingerprinting system and method
US6834308B1 (en) 2000-02-17 2004-12-21 Audible Magic Corporation Method and apparatus for identifying media content presented on a media playing device
US6574594B2 (en) * 2000-11-03 2003-06-03 International Business Machines Corporation System for monitoring broadcast audio content
AU2003283783A1 (en) 2002-12-20 2005-05-11 Koninklijke Philips Electronics N.V. Video content detection
US8332326B2 (en) 2003-02-01 2012-12-11 Audible Magic Corporation Method and apparatus to identify a work received by a processing system
US7421305B2 (en) * 2003-10-24 2008-09-02 Microsoft Corporation Audio duplicate detector
US20090254933A1 (en) * 2008-03-27 2009-10-08 Vishwa Nath Gupta Media detection using acoustic recognition
US8335786B2 (en) * 2009-05-28 2012-12-18 Zeitera, Llc Multi-media content identification using multi-level content signature correlation and fast similarity search
US8428955B2 (en) * 2009-10-13 2013-04-23 Rovi Technologies Corporation Adjusting recorder timing
US8560583B2 (en) * 2010-04-01 2013-10-15 Sony Computer Entertainment Inc. Media fingerprinting for social networking
US9264785B2 (en) * 2010-04-01 2016-02-16 Sony Computer Entertainment Inc. Media fingerprinting for content determination and retrieval
US8694533B2 (en) * 2010-05-19 2014-04-08 Google Inc. Presenting mobile content based on programming context
US8717499B2 (en) * 2011-09-02 2014-05-06 Dialogic Corporation Audio video offset detector

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070055500A1 (en) * 2005-09-01 2007-03-08 Sergiy Bilobrov Extraction and matching of characteristic fingerprints from audio signals
US20080066099A1 (en) * 2006-09-11 2008-03-13 Apple Computer, Inc. Media systems with integrated content searching
CN101663708A (zh) * 2007-04-17 2010-03-03 韩国电子通信研究院 用于按照索引信息搜索音频指纹的系统和方法
CN101673262A (zh) * 2008-09-12 2010-03-17 未序网络科技(上海)有限公司 音频内容的搜索方法
US20110041154A1 (en) * 2009-08-14 2011-02-17 All Media Guide, Llc Content Recognition and Synchronization on a Television or Consumer Electronics Device

Cited By (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106663102A (zh) * 2014-04-04 2017-05-10 Teletrax有限公司 用于生成信息信号的指纹的方法和装置
CN106663102B (zh) * 2014-04-04 2021-05-07 Teletrax有限公司 用于生成信息信号的指纹的方法和装置
CN106233746A (zh) * 2014-08-21 2016-12-14 松下知识产权经营株式会社 内容辨识装置以及内容辨识方法
US11683560B2 (en) 2015-04-23 2023-06-20 Roku, Inc. Automatic content recognition with local matching
CN107851103A (zh) * 2015-04-23 2018-03-27 索伦森媒体有限公司 自动内容辨识指纹序列匹配
CN107851103B (zh) * 2015-04-23 2022-03-18 六科股份有限公司 自动内容辨识指纹序列匹配
CN107533850A (zh) * 2015-04-27 2018-01-02 三星电子株式会社 音频内容识别方法和装置
CN107864678A (zh) * 2015-06-26 2018-03-30 亚马逊技术公司 对视觉指示器的检测和解译
CN107864678B (zh) * 2015-06-26 2021-09-28 亚马逊技术公司 对视觉指示器的检测和解译
WO2017050175A1 (zh) * 2015-09-24 2017-03-30 阿里巴巴集团控股有限公司 音频识别方法和系统
US10679647B2 (en) 2015-09-24 2020-06-09 Alibaba Group Holding Limited Audio recognition method and system
CN108370447A (zh) * 2015-12-10 2018-08-03 三星电子株式会社 内容处理装置及其内容处理方法、服务器、服务器的信息提供方法和信息提供系统
CN105847878A (zh) * 2016-03-23 2016-08-10 乐视网信息技术(北京)股份有限公司 数据推荐方法及装置
CN109891404A (zh) * 2016-08-15 2019-06-14 因特拉松尼克斯有限公司 音频匹配
CN109891404B (zh) * 2016-08-15 2023-10-24 因特拉松尼克斯有限公司 音频匹配
US10950255B2 (en) 2018-03-29 2021-03-16 Beijing Bytedance Network Technology Co., Ltd. Audio fingerprint extraction method and device
CN110322886A (zh) * 2018-03-29 2019-10-11 北京字节跳动网络技术有限公司 一种音频指纹提取方法及装置
WO2019184517A1 (zh) * 2018-03-29 2019-10-03 北京字节跳动网络技术有限公司 一种音频指纹提取方法及装置
CN111402926A (zh) * 2020-03-19 2020-07-10 中国电影科学技术研究所 影院放映内容的检测方法、装置、设备及智能网络传感器

Also Published As

Publication number Publication date
US8949872B2 (en) 2015-02-03
EP2795913A1 (en) 2014-10-29
HK1199344A1 (zh) 2015-06-26
TWI516100B (zh) 2016-01-01
US20130160038A1 (en) 2013-06-20
CA2856843C (en) 2017-03-21
EP2795913B1 (en) 2019-11-27
EP2795913A4 (en) 2015-07-15
CA2856843A1 (en) 2013-06-27
TW201342890A (zh) 2013-10-16
CN103999473B (zh) 2018-02-06
WO2013095893A1 (en) 2013-06-27

Similar Documents

Publication Publication Date Title
CN103999473A (zh) 用于内容识别的音频指纹
CN112565825B (zh) 一种视频数据处理方法、装置、设备以及介质
CN110134829B (zh) 视频定位方法和装置、存储介质及电子装置
CN110198432B (zh) 视频数据的处理方法、装置、计算机可读介质及电子设备
WO2017096877A1 (zh) 一种推荐方法和装置
CN105190618B (zh) 用于自动文件检测的对来自基于文件的媒体的特有信息的获取、恢复和匹配
US11115724B2 (en) Visual hash tags via trending recognition activities, systems and methods
US20190392866A1 (en) Video summarization and collaboration systems and methods
US20130345840A1 (en) Method and system for detecting users' emotions when experiencing a media program
CN106462609A (zh) 用于呈现与媒体内容相关的音乐项的方法、系统和介质
CN105653572A (zh) 一种资源的处理方法及装置
CN107426620B (zh) 一种节目内容推荐方法
WO2016192506A1 (zh) 一种信息查询方法、终端设备、系统及计算机存储介质
US9305215B2 (en) Apparatus, method and computer readable recording medium for analyzing video using image captured from video
KR101804967B1 (ko) 사용자 맥락, 추천 음악, 이용 행태로 구성된 데이터베이스를 활용한 음악 콘텐츠 추천 방법 및 시스템
US20120042041A1 (en) Information processing apparatus, information processing system, information processing method, and program
KR20130055748A (ko) 콘텐츠 추천 시스템 및 방법
CN106407268A (zh) 一种基于覆盖率最优化法的内容检索方法及系统
CN109359203B (zh) 运动轨迹视频的处理方法及装置
KR100916310B1 (ko) 오디오 신호처리 기반의 음악 및 동영상간의 교차 추천 시스템 및 방법
WO2018131132A1 (ja) 情報処理装置、情報処理方法及びプログラム
KR101108688B1 (ko) 인터넷을 통해 미디어파일과 관련된 동영상정보 제공 방법, 서버, 및 클라이언트 장치
Vega et al. Towards a multi-screen interactive ad delivery platform
CN104202628B (zh) 客户端播放节目的识别系统和方法
KR20110010084A (ko) 핑거프린트 정보를 이용한 콘텐츠 관련 서비스 제공 방법 및 시스템

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 1199344

Country of ref document: HK

TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20170817

Address after: American California

Applicant after: YAHOO Holdings

Address before: American California

Applicant before: Yahoo Corp.

GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20180402

Address after: American New York

Patentee after: Oath company

Address before: American California

Patentee before: YAHOO Holdings

REG Reference to a national code

Ref country code: HK

Ref legal event code: GR

Ref document number: 1199344

Country of ref document: HK

TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20210324

Address after: New York State, USA

Patentee after: Verizon media

Address before: New York State, USA

Patentee before: Oath

TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20210830

Address after: new jersey

Patentee after: Verizon Patent and Licensing Inc.

Address before: New York, United States

Patentee before: Verizon media