CN106415546A

CN106415546A - 用于在本地检测所消费视频内容的系统和方法

Info

Publication number: CN106415546A
Application number: CN201580031440.6A
Authority: CN
Inventors: 安特·厄兹塔斯肯特; 雅罗斯拉夫·沃洛维奇; 因格里德·麦考利·特罗洛普
Original assignee: Google LLC
Current assignee: Google LLC
Priority date: 2014-06-12
Filing date: 2015-06-10
Publication date: 2017-02-15
Anticipated expiration: 2035-06-10
Also published as: CN106415546B; EP3155822B1; US9894413B2; US20220116682A1; US20180167676A1; EP3155822A2; US10455281B2; WO2015191755A2; US20200053424A1; US20150365722A1; US11206449B2; WO2015191755A3; US11924507B2

Abstract

一种处理向用户提供了场境感知信息。该处理在具有一个或多个处理器、麦克风和存储器的客户端设备上被执行。该存储器存储一个或多个被配置为由该一个或多个处理器所执行的程序。该处理接收多个视频节目的音频指纹以及将每个相应所接收到的音频指纹与相应视频节目进行关联的信息，并且将所接收到的音频指纹和关联信息存储在存储器中。该处理使用该麦克风检测周围声音，并且从所检测到的周围声音计算一个或多个样本音频指纹。该处理将该样本音频指纹之一与所存储的第一音频指纹进行匹配并且使用该关联信息来识别对应于所匹配的样本音频指纹的第一视频节目。该处理随后向用户提供有关该第一视频节目的信息。

Description

用于在本地检测所消费视频内容的系统和方法

技术领域

本公开总体上涉及识别视频节目，尤其涉及基于识别用户所消费的视频内容而向用户提供场境感知(context-aware)信息。

背景技术

人们每天观看大量的电视，并且因此许多用户在观看电视的同时向搜索引擎提交搜索查询。知晓用户在进行搜索查询时所处的场境能够有助于提供更好且更符合场境的结果。例如，如果搜索引擎知道一个人正在看什么电视节目，该搜索引擎就能够提供更为相关的搜索结果，或者甚至预测该用户在观看该内容的同时可能搜索什么。

一些系统接收来自用户的明确信息以识别用户的场境，但是这样的系统对于用户而言是麻烦的。其它系统提供选择加入的特征，其中用户选择使得他们的周围声音被监视。当该特征被用户所使能时，该声音被收集并被发送至服务器(例如，每分钟一次或者每五分钟一次)，声音在服务器处被分析并且与来自视频节目的已知音频的大型数据库进行比较。当发现匹配时，该服务器能够识别用户附近正在呈现什么视频节目。这样的系统具有若干缺陷。首先，频繁向服务器进行数据传输消耗大量能量，并且因此减少了用户的客户端设备的电池寿命。第二，这样的系统要么是麻烦的(要求定期许以继续追踪)，要么由于过久地保持收集有效而带来隐私性的问题。

发明内容

所公开的实施方式解决了以上缺陷以及与向用户提供场境感知信息相关联的其它问题。在一些实施方式中，一种媒体服务器找出涵盖相同节目的许多剧集的重复音频分段(例如，主题歌或节拍规则的韵律)。该服务器针对这些分段计算音频指纹并且将该音频指纹发送至用户的客户端设备(通常为移动设备，诸如智能电话)。然后该用户的客户端设备持续(或定期)执行该用户的客户端设备上的那些指纹与所计算的周围声音的指纹的本地匹配。以这种方式，客户端设备处的声音并不被传送至服务器。这具有若干好处。首先，这为用户的隐私提供了更大程度的尊重，同时使得用户的负担更少。第二，由于指纹的计算和匹配是在本地完成的，所以无需保持网络连接打开，这使得电池寿命的消耗更少。当用户发出搜索查询时，能够包括有关用户正在观看什么电视节目的信息，并且因此该搜索引擎能够提供更好的场境感知搜索结果。

在一些实施方式中，处理在服务器上运行以识别将被传送至客户端设备以便进行匹配的音频指纹的集合。不同于发送视频节目的所有可能的音频指纹，被传送至每个客户端设备的集合通常局限于与用户可能观看的视频节目相对应的小的数量。

该服务器从直播电视广播(例如，使用电视捕捉系统)以及点播视频内容库收集音频内容。该服务器识别在相同电视节目的许多剧集中共同出现的主题歌、节拍规则的韵律和其它音频样本。对于电影而言，可以从前5分钟的一些点取得简短样本(例如，30秒)。一些实施方式基于时间偏移处的音频水平和/或该内容有多么唯一(例如，仅挑选并不与任何其它电视节目或电影相匹配的样本)来选择取得样本的点。

该服务器随后针对这些共有音频样本计算音频指纹，该音频指纹将与来自关联于用户的客户端设备的麦克风的周围音频进行比较。一些实施方式使用使得用于计算并比较音频指纹的客户端设备的CPU使用最小化的格式来计算音频指纹。特别地，一些实施方式使用使得音频指纹的大小最小化的格式。一些实施方式选择小的音频样本以减少CPU的使用。

存在许多的电视节目和许多的电影，但是下载所有这些并且将客户端设备处的周围声音与所有可能性进行比较将会需要过多的资源(例如，网络带宽、客户端设备存储器、客户端设备CPU能力和客户端设备电池)。在一些实施方式中，该服务器选择其指纹将被发送至用户的客户端设备的电视节目和电影的子集。一些实施方式基于独立视频节目(例如，具有一个或多个音频指纹的单个视频节目)的数量来限制发送至客户端设备的音频指纹。在一些实施方式中，要针对其传送音频指纹的视频节目的数量被限制为预定数量(例如，100或200)。一些实施方式在选择过程中使用各种因素，它们中的一些特定于个体用户，并且它们中的一些应用于用户群组(或所有用户)。

在一些实施方式中，该选择标准包括确定在用户的地理位置处在先前一周期间的电视上是否播出了某个内容(例如，视频节目的任意剧集)。在一些实施方式中，该选择标准包括确定某个内容最近是否被播出，并且如果是，则确定电视观众的相对多少。在一些实施方式中，该选择标准包括确定某个内容在接下来一周是否将在电视上播出。在一些实施方式中，该选择标准包括确定用户以前是否看过该电视节目(例如，相同视频节目的不同剧集)。在一些实施方式中，该选择标准包括确定用户以前是否表示过对该电视节目的兴趣(例如，使用搜索引擎搜索过该节目，针对该节目设置过日历提醒，在社交网站上追随过该节目，或者在社交网站上表达过对该节目的兴趣)。在一些实施方式中，该选择标准使用用户的个人资料。在一些实施方式中，该选择标准包括确定多个视频节目。

该服务器将所选择的音频指纹的子集传送至用户的客户端设备(例如，推送至该设备或者由该设备通过在该设备上运行的应用进行拉取)。通常定期进行选择音频指纹的子集并且将它们传送至用户的设备的过程(例如，每天一次或每周一次)。一般并不重传已经在用户的电话上存在的指纹。在一些实施方式中，较为老旧的指纹在相对应的视频节目不再相关时从用户设备中被丢弃。

在用户的客户端设备处，麦克风被用户打开并保持开启。在一些实施方式中，用户的设备持续将麦克风所捕捉到的周围音频与从服务器所接收到的指纹进行比较。通常，这涉及到计算周围声音的音频指纹，并且将那些所计算的指纹与所接收到的指纹进行比较。匹配指示用户处于呈现相对应视频节目的电视附近。假定用户正在观看视频节目，而通常确实如此。用户正在观看某个电视节目的事实被存储在用户的设备上，并且可以被用来向用户提供场境感知信息。在一些实施方式中，指示用户正在观看节目的记录被“永久”存储在设备上的日志中。在一些实施方式中，有关观看节目的记录在某个时间段后被删除。在一些实施方式中，有关观看节目的记录在该节目结束N分钟之后被删除，其中N是预定数字(例如，15分钟、30分钟或60分钟)。

能够以各种方式使用有关用户观看具体视频节目的场境信息，以向用户提供相关信息。在一些实施方式中，当用户提交搜索查询并且已知该用户在过去M分钟(例如，30分钟)在观看具体视频节目时，该信息可以被用来提供有关该节目的信息卡(例如，有关该节目及其演员阵容的信息，具有指向相关搜索主题的链接)。也就是说，客户端设备通过使用搜索查询包括视频节目(例如，节目名称或标识符)，并且服务器使用该知识来提供信息卡。

在一些实施方式中，服务器通过确认用户正在观看所识别的视频节目(例如，“你在看生活大爆炸吗？”)来作出响应并且提示用户进入丰富体验。例如，用户可以使能音频检测，随后可以使用音频指纹检测来识别正在观看的确切剧集和时间偏移量。这允许服务器提供更为详细且具体的信息。

在一些实施方式中，用户正在看什么节目的知识能够被用来提供搜索自动完成建议(例如，自动完成节目名称、演员姓名或角色名称)。

依据一些实施方式，一种方法在具有一个或多个处理器、麦克风和存储器的客户端上执行。该存储器存储一个或多个被配置为由该一个或多个处理器所执行的程序。该处理接收多个视频节目的音频指纹以及将每个相应接收的音频指纹与相应视频节目关联起来的信息。在一些实例中，视频节目具有两个或更多的关联音频指纹。该处理将所接收到的音频指纹和关联信息存储在存储器中。该处理使用该麦克风检测周围声音，该周围声音可以包括在该客户端设备附近所呈现的视频节目的声轨。该处理根据所检测到的周围声音计算一个或多个样本音频指纹，并且将所计算的音频指纹与所存储的音频指纹进行比较。在一些实例中，该处理将样本音频指纹之一与所存储的第一音频指纹进行匹配，并且使用该关联信息来识别对应于所匹配的样本音频指纹的第一视频节目。该处理随后向用户提供有关该第一视频节目的信息。

在一些实施方式中，所接收到的音频指纹是从媒体服务器被接收的并且由该媒体服务器根据相关性标准的集合进行预先选择。在一些实施方式中，根据相关性标准的集合预先选择音频指纹的集合包括将所选择集合限制为预定义的最大数量(例如，100)。在一些实施方式中，根据相关性标准的集合预先选择音频指纹的集合包括基于所存储的用户偏好来选择一个或多个音频指纹。在一些实施方式中，根据相关性标准的集合预先选择音频指纹的集合包括基于用户之前进行的搜索查询来选择一个或多个音频指纹。在一些实施方式中，根据相关性标准的集合预先选择音频指纹的集合包括基于与所选择的一个或多个音频指纹相关的视频节目的流行度来选择一个或多个音频指纹。在一些实施方式中，根据相关性标准的集合预先选择音频指纹的集合包括基于用户之前对与所选择的一个或多个音频指纹相关的视频节目的收看来选择一个或多个音频指纹。

因此，提供了在本地检测用户正在观看什么视频节目并且基于知道那些节目向用户提供场境感知信息的方法和系统。

附图说明

为了更好地理解本发明的上述实施方式及其另外的实施方式，应当对以下结合附图的具体实施方式加以参考，其中贯穿附图同样的附图标记指代相对应的部分。

图1图示了一些实施方式在其中进行操作的环境。

图2是根据一些实施方式的客户端设备的框图。

图3是根据一些实施方式的、可在服务器系统中使用的服务器的框图。

图4和5图示了一些实施方式所使用的各种框架式(skeletal)数据结构或表格。

图6是依据一些实施方式的用于提供场境感知信息的处理流程。

图7A和7B提供了根据一些实施方式的在客户端设备处执行的用于提供关于视频节目的场境感知信息的处理的流程图。

现在将详细参考多种实施方式，在附图中图示了实施方式的示例。在以下详细描述中，阐述了很多具体细节以便提供对本发明的全面理解。然而，对于本领域技术人员将会显而易见的是，可以在没有这些具体细节的情况下实践本发明。

具体实施方式

图1是图示一些实施方式的主要组件的框图。各个客户端设备102和服务器系统114中的服务器300通过一个或多个网络112(诸如互联网)进行通信。客户端环境100包括通常连接至机顶盒106(或接收器/转换器)的电视108。机顶盒106从诸如有线电视网络、碟形卫星网络或者通过无线电波的广播的内容提供方110接收媒体内容。如图1中所图示的，在一些情况下，通过通信网络112传送媒体内容。

客户端环境100还包括一个或多个客户端设备102，诸如智能电话、平板计算机、膝上计算机或台式计算机。在这里的场境中，客户端设备通常接近于电视108。客户端应用104在客户端设备上运行。如以下关于图2更为详细描述的，客户端设备102包括存储器214。在一些实施方式中，客户端应用在web浏览器222内运行。虽然图1中仅图示处了单个客户端环境100，但是在任何时间通常都存在数百万个客户端环境。不同的客户端环境100可以使用不同的媒体内容提供方110，并且可以使用客户端设备102以及充当接收器、转换器或机顶盒的盒子106的有所变化的组合形式。虽然图1图示了单个机顶盒106，但是本领域技术人员将会认识到，其它环境能够由多个不同的电子组件所组成，诸如单独接收器、单独转换器和单独机顶盒。而且，机顶盒106(或者接收器或转换器)的一些或全部功能可以与电视108进行整合。

服务器系统114包括多个服务器300，并且可以通过内部通信网络或总线128连接服务器300。服务器系统114包括查询处理模块116，其接收来自用户(例如，来自客户端设备102)的请求并且返回作为响应的查询结果。该查询在数据库118中的搜索查询日志120中被追踪。

该服务器系统包括一个或多个数据库118。存储在数据库118中的数据包括搜索查询日志120，其对用户所提交的每个搜索查询进行追踪。在一些实施方式中，该搜索查询日志以汇总格式被存储从而减小存储的大小。该数据库可以包括电视节目信息122。电视节目信息122可以包括有关每个节目的详细信息，包括字幕以及广播日期和时间。在下文中关于图4和5描述了一些信息。在一些实施方式中，数据库118存储用户的用户资料124，其可以包括用户所明确标示出的偏好，以及基于所提交的搜索查询或电视收看历史所推导出的偏好。

服务器系统114还包括在下文中关于图3和6更为详细地对其进行描述的媒体子系统126。媒体子系统126中包括用于捕捉媒体内容、计算音频指纹以及选择可能与每个用户相关的音频指纹的各种模块。

图2是图示用户在客户端环境100中用户使用的客户端设备102的框图。客户端设备102通常包括一个或多个执行存储或在存储器214中的模块、程序或指令并且因此执行处理操作的处理单元(CPU)202；麦克风203；一个或多个网络或其它通信接口204；存储器214；以及一个或多个用于将这些组件进行互连的通信总线212。通信总线212可以包括在系统组件之间进行互连并且控制系统组件之间的通信的电路(有时称作芯片组)。客户端设备102包括用户接口206，其包括显示设备208以及一个或多个输入设备或机制210。在一些实施方式中，该输入设备/机制包括键盘和鼠标；在一些实施方式中，该输入设备/机制包括按照需要被显示在显示设备208上的“软”键盘，从而使得用户能够“按压”出现在显示器208上的“按键”。

在一些实施方式中，存储器214包括高速随机访问存储器，诸如DRAM、SRAM、DDRRAM或者其它随机访问固态存储器设备。在一些实施方式中，存储器214包括非易失性存储器，诸如一个或多个磁盘存储设备、光盘存储设备、闪存设备或者其它非易失性固态存储设备。在一些实施方式中，存储器214包括远离(多个)CPU 202定位的一个或多个存储设备。存储器214或者可替换地存储器214内的(多个)非易失性存储器设备包括非瞬时计算机可读存储介质。在一些实施方式中，存储器214或者存储器214的计算机可读存储介质存储以下程序、模块和数据结构或者其子集：

·操作系统216，其包括用于处理各种基本系统服务并且用于执行依赖于硬件的任务的过程；

·通信模块218，其被用于经由一个或多个通信网络接口204(有线或无线)和一个或多个通信网络112将客户端设备106连接至其它计算机和设备，上述通信网络112诸如为互联网、其它广域网、局域网、城域网等；

·显示模块220，其接收来自一个或多个输入设备210的输入，并且生成用于在显示设备208上显示的用户界面要素；

·web浏览器222，其使得用户能够通过网络112(诸如互联网)与远程计算机或设备进行通信；

·客户端应用104，其可以结合电视108而被用来向用户提供更为场境感知的信息(例如，有关用户正在观看的电视节目的信息)。在一些实施方式中，客户端应用104在web浏览器内运行。在一些实施方式中，客户端应用104作为独立于web浏览器的应用而运行。关于图6更为详细地描述了客户端应用104；并且

·在一些实施方式中，客户端应用104包括用于执行具体任务的一个或多个子模块。在一些实施方式中，客户端应用104包括使用麦克风203捕捉周围声音的本地捕捉模块224。在一些实施方式中，客户端应用104包括取得所捕捉的声音并且计算音频指纹的本地指纹模块226。在一些实施方式中，客户端应用104包括本地匹配模块228，其将所计算的音频指纹与从媒体子系统所接收到的音频指纹进行匹配，由此确定用户正在观看什么视频节目。在下文中关于图6更为详细地描述了这些子模块。

以上所识别的可执行模块、应用或者过程集合中的每一个可以存储在一个或多个之前所提到的存储设备中，并且对应于用于执行以上所描述的功能的指令集合。以上所识别的模块或程序(即，指令集合)无需作为单独的软件程序、过程或模块来执行，并且因此可以在各种实施方式中对这些模块的各种子集进行合并或者以其它方式重新部署。在一些实施方式中，存储器214可以存储以上所提到的模块和数据结构的子集。此外，存储器214可以存储以上并未描述的另外的模块和数据结构。

虽然图2示出了客户端设备102，但是图2更多地是意在作为可以呈现的各种特征的功能性描述而不是作为本文所描述的实施方式的结构示意。实际上以及如本领域技术人员所认识到的，可以将单独示出的事项进行合并并且可以将一些事项进行划分。

图3是图示出可以在服务器系统114中使用的服务器300的框图。典型的服务器系统包括许多个体服务器，其可以是数百个或数千个。服务器300通常包括一个或多个用于执行存储在存储器314中的模块、程序或指令并且因此执行处理操作的处理单元(CPU)302；一个或多个网络或其它通信接口304；存储器314；以及一个或多个用于将这些组件进行互连的通信总线312。通信总线312可以包括在系统组件之间进行互连并且控制系统组件之间的通信的电路(有时称作芯片组)。在一些实施方式中，服务器300包括用户接口306，其包括显示设备308以及一个或多个输入设备310，诸如键盘和鼠标。

在一些实施方式中，存储器314包括高速随机访问存储器，诸如DRAM、SRAM、DDRRAM或者其它随机访问固态存储器设备。在一些实施方式中，存储器314包括非易失性存储器，诸如一个或多个磁盘存储设备、光盘存储设备、闪存设备或者其它非易失性固态存储设备。在一些实施方式中，存储器314包括远离(多个)CPU 302定位的一个或多个存储设备。存储器314或者可替换地存储器314内的(多个)非易失性存储器设备包括非瞬时计算机可读存储介质。在一些实施方式中，存储器314或者存储器314的计算机可读存储介质存储以下程序、模块和数据结构或者其子集：

·操作系统316，其包括用于处理各种基本系统服务并且用于执行依赖于硬件的任务的过程；

·通信模块318，其被用于经由一个或多个通信网络接口304(有线或无线)、内部网络或总线128或其他通信网络112将服务器300连接至其它计算机和设备，上述通信网络112诸如为互联网、其它广域网、局域网、城域网等；

·显示模块320，其接收来自一个或多个输入设备310的输入，并且生成用于在显示设备308上显示的用户界面要素；

·查询处理模块116，其从客户端设备102接收搜索查询并且返回作为响应的搜索结果。在一些实施方式中，在搜索查询日志120中对每个查询进行记录；

·媒体子系统126，其识别用户可以收看的各种视频节目并且将该视频节目的音频指纹传送至对应于该用户的客户端设备102；

·在一些实施方式中，媒体子系统126包括捕捉模块322，其捕获广播视频节目以及存储在视频库中的视频节目；

·在一些实施方式中，媒体子系统包括指纹模块324，其捕捉每个视频节目的一个或多个音频指纹。在一些实施方式中，音频指纹是音频样本的小型化表示形式并且是相对唯一的；

·在一些实施方式中，媒体子系统126包括匹配模块326，其将音频指纹进行比较以识别匹配。在一些实施方式中，匹配模块使用模糊匹配技术；

·在一些实施方式中，媒体子系统126包括指纹选择模块328(其也可以被称作媒体节目选择模块)，其基于与用户的相关性而选择具体的音频指纹以及相对应的视频节目。例如，可以存在用户可能观看的成百上千的电视节目(以及更多的电影)，但是具体用户并非以等同的可能性来观看所有可能的视频节目。指纹选择模块328识别用户更可能观看的具体视频节目(及其相对应的指纹)，并且将所选择的指纹传送至用户的客户端设备102。关于图6更为详细地对其进行了描述；和

·一个或多个数据库118，其存储本文所描述的模块所使用的各种数据。

以上所识别的图3中的每个要素可以存储在一个或多个之前所提到的存储设备中。每个可执行程序、模块或过程对应于用于执行以上所描述的功能的指令集合。以上所识别的模块或程序(即，指令集合)无需作为单独的软件程序、过程或模块被执行，并且因此可以在各种实施方式中对这些模块的各种子集进行合并或者以其它方式重新部署。在一些实施方式中，存储器314可以存储以上所提到的模块和数据结构的子集。此外，存储器314可以存储以上并未描述的另外的模块和数据结构。

虽然图3示出了服务器300，但是图3更多地是意在作为可以呈现的各种特征的功能性描述而不是本文所描述的实施方式的结构示意。实际上以及如本领域技术人员所认识到的，可以将单独示出的事项进行合并并且可以将一些事项进行划分。用来实施这些特征的服务器的实际数量以及特征如何在它们之间进行分配将随着实施方式的不同而有所变化，并且可以部分取决于该系统在峰值使用期间以及平均使用期间必须处理的数据业务数量。

在一些实施方式中，数据库118存储视频节目数据122。每个视频节目包括节目ID330以及可以被再分为单独的数据结构的各种其它信息。在一些实施方式中，视频节目数据122包括视频节目内容334(即，视频节目自身)，其包括音频和视频。在一些实施方式中，该音频和视频被分开存储。视频节目数据还包括每个视频节目的一个或多个音频指纹338。通常，单个视频节目将具有多个所存储的音频指纹。

在一些实施方式中，每个节目的视频节目数据包括节目资料332，关于图4更为详细地对其进行了描述。该资料包括作为每个视频节目的唯一标识符的节目ID 330。在一些实施方式中，资料332包括节目描述402，其可以包括描述该节目的一个或多个段落。资料332可以包括演员阵容信息404，其包括有关个体演职人员的细节或者指向有关该演职人员的进一步信息的链接(例如，指向演职人员网页的链接)。对于作为一个系列的一部分的视频节目，一些实施方式在资料332中包括系列信息。在一些实施方式中，资料332包括流派信息408，其可以包括有关视频节目流派的信息，并且可以提供指向其它信息的链接。在一些实施方式中，资料332包括相关术语440，其可以包括描述视频节目的关键术语或者可以识别使得用户能够识别出相关内容的术语。

一些实施方式存储有关在何时已经广播视频节目或者将在何时广播视频节目的信息。一些实施方式关注于按照预定义时间表进行广播的视频节目，并且因此多个观看者在相同时间收看相同的视频节目。不同技术被应用以使用点播视频(VOD)数据，而可以不使用广播数据表336。

图5图示了用于存储广播数据336的框架式数据结构。广播数据336包括节目ID330和广播列表502，其识别何时已经广播视频节目或将在何时广播视频节目。在一些实施方式中，每个广播实例具有开始时间504和结束时间506。在一些实施方式中，每个广播实例包括开始时间504和持续时间。在一些实施方式中，每个广播实例包括指定频道、台或其它广播源的信息508。在一些实施方式中，每个广播实例包括指定发生广播的地理位置或区域的信息510。在一些实施方式中，信息510是广播区域。在一些实施方式中，每个广播实例存储广播的时区512。针对已经广播的视频节目，收集并存储收视信息514。该收视信息可以包括观看者的数量、观看者的相对百分比，并且可以基于人口统计特征或地理区域进一步细分该收视信息。

在一些实施方式中，数据库118存储识别用户已经观看了什么节目的电视收看日志。可以由客户端应用104将该信息提供至服务器系统114，或者可以在用户所提交的搜索查询中包括该信息。在一些实施方式中，用户进行注册从而使得电视收看得以被追踪(例如，作为单源面板的一部分)。

在一些实施方式中，数据库118存储所计算的节目流行度数据342。如以下在图6中所解释的，媒体子系统126可以使用该信息来针对每个用户选择相关视频的节目指纹。

在一些实施方式中，数据库118存储搜索查询日志120。在一些实施方式中，以唯一的查询ID 344(例如，全局唯一的)来指定每个搜索查询。此外，该日志存储各种搜索查询数据346。每个查询包括查询术语的集合，可以对该集合进行解析以除去标点符号。在一些实施方式中，排字错误得以被保留。

查询数据346通常包括指定何时发出该查询的时间戳。在一些实施方式中，该时间戳基于也被存储的用户的时区。在其它实施方式中，该时间戳表示服务器生成的指示何时接收到查询的时间戳。一些服务器系统114包括一个或多个准确管理时间戳以便保证数据准确性以及顺序一致性的服务器300。在一些实施方式中，服务器时间戳连同用户时区(以及已知该服务器的时区)允许服务器系统根据用户的当地时间而准确得知每个查询何时被提交，而并不依赖于用户的客户端设备102。在一些实施方式中，该查询数据包括用户的IP地址以及用户的地理位置。用于用户的地理位置的可能数值集合通常对应于用于视频广播的地理位置或地区510的相同数据集合。

在一些实施方式中，数据库118存储用户资料124。用户资料124可以包括由用户明确提供的数据(例如，针对具体电视节目或流派的偏好)。在一些实施方式中，基于用户实际观看的电视节目或者基于所提交的搜索查询推导出用户偏好。

图6图示了向客户端设备102的用户提供场境感知信息的处理。媒体内容提供方110向媒体子系统126内的捕捉模块322提供(602)媒体内容334。可以以各种形式提供媒体内容334，诸如电视播放的RF信号、通过线缆的电信号、通过IP网络的IP分组或者来自视频库的原始内容。捕捉模块322接收媒体内容334，并且提取音频信号，并且将该音频信号转发(604)至指纹模块324。

指纹模块324取得该音频并且计算一个或多个音频指纹。例如，视频节目的一部分可以被划分为30秒的分段，并且针对每个分段计算音频指纹。可以以任意已知格式计算并存储该音频指纹，只要该格式符合本地指纹模块226所使用的格式即可。指纹模块324所计算的音频指纹被发送(606)至匹配模块326以便进行核查。

针对每个视频节目，拥有唯一识别该视频节目的音频指纹是有用的。

针对包括多个剧集的视频节目(例如，电视系列剧)而言，匹配模块326通过比较并匹配来自多个剧集的音频指纹而识别主题音乐或节拍规则的韵律。该匹配进行处理因此识别出唯一识别该视频节目的音频部分(例如，美国偶像的主题歌曲)。注意到，匹配处理并非必然事先知晓哪些广播是相同系列剧的剧集。

针对作为电影的视频节目使用不同的处理，原因在于并没有多个剧集进行比较。在一些实施方式中，从电影的前面部分取得多个音频样本(例如，来自前五分钟的10个30秒分段)。从该样本集合，选择出最为独特的一个。一些实施方式使用音频指纹的大型索引库以便选择最为独特的音频指纹。

该捕捉、计算音频指纹和匹配指纹以识别主题歌曲或主题音乐的处理能够被多次重复。以某个间隔(例如，每天一次或每周一次)，指纹选择模块328取得(608)所匹配的音频指纹(以及电影的代表性音频指纹)，并且选择出传送至每个用户的子集。该选择处理可以使用各种标准，但是一般将所选择的子集局限于小的数量(例如，50或100)。该选择标准可以使用有关什么节目已经或将要在用户所生活的地区被广播的信息(例如，基于对应于用户的IP地址的地理位置)，有关广播节目的收视或流行度信息，用户的电视收看历史，用户提交查询的历史，用户资料中的信息，来自社交媒体站点的表明用户好恶的信息，等等。所选择指纹的子集(以及用于将指纹与视频节目进行关联的信息)被发送(610)至客户端设备102并且被客户端环境100中的客户端应用104所接收。客户端应用104将该指纹和关联信息存储在其存储器214中(例如，非易失性存储中)。

当被用户所允许时，客户端设备102激活麦克风203并且周围声音被本地捕捉模块224所接收(612)。在一些实例中，一些周围声音来自于客户端设备102附近的电视108。所捕捉音频被发送(614)至本地指纹模块226，后者从所捕捉的音频计算一个或多个指纹。在一些实施方式中，所捕捉音频被划分为分段以便进行指纹处理(例如，30秒的分段)。所计算的指纹随后被发送(616)至本地匹配模块228。

本地匹配模块228将从本地匹配模块所接收到的音频指纹与从媒体子系统126所接收到的指纹进行比较。所检测到的匹配指示了用户正在观看什么节目，并且该信息被存储在客户端设备的存储器314中。

随后，场境感知信息以各种方式被提供(618)给客户端设备102上的用户接口206。在一些实例中，当用户向服务器系统提交查询时，所存储的有关用户正在观看什么视频节目的信息随该查询一起被包括，从而使得搜索引擎能够提供更为相关的搜索结果。在一些实例中，在用户输入搜索查询时，自动完成特征使用有关用户正在观看什么节目的信息来完成单词或短语(例如，节目名称、男女演员的姓名、节目中角色的名称或者节目中的明显实体的名称，诸如拉什莫尔山的金门大桥)。在一些实施方式中，客户端应用甚至在没有搜索查询的情况下将用户正在观看的节目的名称传送至服务器系统，并且用户接收到有关该节目的信息(例如，有关该视频节目的更多信息或者指向具体信息类型的链接)。

图7A和7B提供了由客户端设备102所执行的用于提供(702)场境感知信息的处理700的流程图。该方法由具有一个或多个处理器、麦克风和存储器的客户端设备102来执行。该存储器存储(704)被配置由一个或多个处理器所执行的程序。

该处理接收(706)多个视频节目的音频指纹以及将每个相应所接收到的音频指纹与相应视频节目进行关联的信息。视频节目可以是单独的电影、电视系列剧、视频纪录片等。针对包括多个剧集的系列剧，术语“视频节目”通常是指该系列剧而不是该系列剧中的单个剧集。每个音频指纹对应于一个视频节目，并且该对应性通常是唯一的(即，一个视频指纹识别单个视频节目)。然而，针对每个视频节目通常存在多个音频指纹。一般而言，来自视频节目的音频被划分为多个分段(例如，15秒钟、30秒钟或1分钟)，并且针对每个分段计算不同的音频指纹。本领域技术人员认识到，存在许多用于音频指纹的不同格式，并且可以使用诸多不同公式或技术来计算音频指纹。如本文所公开的，可以在客户端设备102以及服务器系统114二者上计算音频指纹，从而在客户端设备102和服务器系统114上用于音频指纹的格式是相同的或者至少在功能上是兼容的。

所接收到的音频指纹对应于客户端设备的用户有理由可能在近期(例如，在接下来一周)观看的视频节目。这里，“有理由可能”可以表示25％或更高的机会，或者大于10％的机会。

在一些实施方式中，所接收到的音频指纹是从媒体服务器(例如，媒体子系统126)接收到的(708)，并且由该媒体服务器根据相关性标准集合对其进行处理。在一些实施方式中，根据相关性标准集合预先选择音频指纹的集合包括(710)将所选择的集合限制为预定义的最大数量。例如，在一些实施方式中，预先选择的数目为(712)100。其它实施方式设置更低或更高的限制(例如，50或200)。在一些实施方式中，该限制应用于视频节目，但是在其它实施方式中，该限制应用于所计算的音频指纹的数量。例如，如果每个视频节目具有大约5个音频指纹，则将视频节目的数量限制为100与将音频指纹的数量限制为500大致上是相同的。一些实施方式使用阈值观看概率而不是预定义的最大数量。例如，选择对应于其估计观看概率至少为10％的视频节目的所有音频指纹。

实施方式使用如下所述的各种选择标准。在一个实例中，个体标准其自身被用来识别用于包括在预先选择集合中的视频节目。在其它实例中，多个标准被一起进行评估以识别包括在预先选择集合中的视频节目。在一些实例中，基于相关性标准而针对每个视频节目计算得分(例如，其中每个标准对于整体加权得分有所影响)，并且该得分使得能够选择具体数量(例如，最多100个)的视频节目或者使得能够选择其得分超过阈值的那些视频节目。

在一些实施方式中，相关性标准包括(714)所存储的用户偏好，后者可以被存储在用户资料124中。例如，用户可以具有针对具体节目、具体流派或者具体男女演员(或反对这些)的偏好。在一些实例中，由用户明确输入用户偏好。在一些实例中，可以基于其它数据推导出用户偏好，诸如基于之前所收看的节目(例如，如电视收看日志340中所保存的)或者用户之前所提交的搜索查询(例如，如搜索查询日志120中所保存的)。

在一些实施方式中，该相关性标准基于用户之前进行的搜索查询(例如，在搜索查询日志120中)来选择(716)一个或多个音频指纹。例如，之前的搜索查询可以识别具体电视节目、节目中演员的姓名或者节目中角色的名称。

在一些实施方式中，基于该视频节目的流行度选择(718)视频节目。通常，针对较小人群计算视频节目的流行度，诸如具体地理区域中的人或者具有某种人口统计学特征的人。在一些实施方式中，基于诸如所识别的兴趣的其它标准对人进行分组。在一些实施方式中，基于节目在用户的(例如，社交网络中的)朋友圈内的流行度，针对每个个体用户来计算视频节目的流行度。

在一些实施方式中，基于用户之前的收看来选择(720)视频节目。例如，如果用户已经收看过电视系列剧的一个或多个剧集，则该用户更可能观看相同电视系列剧的另外剧集。类似地，如果用户已经看过具体的电影，则该用户更可能观看相关电影(或者甚至相同电影)、相同流派的电影、续集等。

处理700将所接收到的音频指纹和关联信息存储(722)在客户端设备102的存储器214(例如，非易失性存储器)中。可以将所接收到的音频指纹和关联信息附加于之前所接收到的信息(例如，每天或每周接收另外的指纹)。在一些实施方式中，将一些较为老旧的指纹在未被使用的一段时间之后删除。

在某时，应用104打开客户端设备102上的麦克风203以检测(724)周围声音。在一些实例中，在存储(722)所接收到的音频指纹之后立即进行检测(724)周围声音，但是在其它实例中，可以明显更晚进行(例如，数小时或数天后)检测(724)。注意到，检测(724)可以在存储所接收到的音频指纹之前开始。

本地指纹模块226根据所检测到的周围声音计算(726)一个或多个样本音频指纹。每个音频指纹通常对应于短的时间段，诸如20秒或30秒。

本地匹配模块228将样本音频指纹与所存储的第一音频指纹进行匹配，并且使用该关联信息来识别对应于所匹配的样本音频指纹的第一视频节目。以这种方式，客户端应用在并未向外部服务器传送信息或音频的情况下就已经识别出用户正在观看什么视频节目。在一些实例中，该第一视频节目是(730)电视播放的电视节目。在一些实例中，该第一电视节目是(732)电影，其可以被广播、从在线源流传输，或者从诸如DVD的物理介质中播放。在一些实例中，该视频节目包括(734)电视系列剧的多个剧集。在一些实例中，该匹配处理识别该系列剧而并非必然处理剧集。

在进行匹配之后的某时(例如，2秒钟后、1分钟后或者半小时后)，处理700向用户提供(736)有关所匹配的第一视频节目的信息。在一些实例中，响应于提交了搜索查询该用户被提供(738)以有关该第一视频节目的信息，其中该搜索查询被适配于该第一视频节目。当用户的搜索查询被传送至服务器系统114时，所匹配的视频节目的名称(或该视频节目的标识符)就随该搜索查询而被包括。因此，查询处理模块116知晓查询场境，并且因此能够提供更为相关的搜索结果。在一些实施方式中，该搜索结果包括有关所匹配的视频节目的信息卡和/或指向有关所匹配的视频节目的更多信息的链接。在一些实施方式中，有关该第一视频节目的信息包括(740)有关该视频节目的演员阵容成员的信息或者有关该视频节目中的角色的信息。

在一些实施方式中，向用户提供有关该第一视频节目的信息包括针对该用户正输入的搜索查询而提供(742)自动完成建议。该自动完成建议基于该第一视频节目(742)。在一些实例中，该自动完成建议包括(744)对应于该第一视频节目的视频节目名称，该第一视频节目中的演员的姓名，和/或该第一视频节目中的角色的名称。

本发明的描述中所使用的术语仅是出于对特定实施方式进行描述的目的而并非意在限制本发明。如本发明的描述和所附权利要求中所使用的，除非上下文另外明确有所指示，否则单数形式“一个”(“a”、“an”和“the”)意在也包括复数形式。还将要理解的是，本所使用的术语“和/或”是指包含一个或多个相关联的列举事项的任意且所有的可能组合。将要进一步理解的是，当在该说明书中使用时，术语“包括”和/或“包括了”指定了存在所提到的特征、步骤、操作、要素和/或组件，但是并不排除存在或增加一个或多个其它的特征、步骤、操作、要素、组件和/或它们的群组。

出于解释的目的，已经参考具体实施方式对以上描述进行了描述。然而，以上的说明性讨论并非意在是无所不包的或者将本发明限制为所公开的确切形式。鉴于以上教导可以进行许多修改和变化。本文所描述的实施方式被选择并描述以便以最佳方式对本发明的原则及其实际应用加以解释，从而使得本领域技术人员能够以最佳方式利用本发明以及利用具有如适应所预期的特定用途的各种修改的各种实施方式。

Claims

1.一种向用户提供场境感知信息的方法，包括：

在具有一个或多个处理器、麦克风以及存储被配置为由所述一个或多个处理器执行的一个或多个程序的存储器的客户端设备上：

接收多个视频节目的音频指纹以及将每个相应所接收到的音频指纹与相应视频节目进行关联的信息；

将所接收到的音频指纹和关联信息存储在所述存储器中；

使用所述麦克风检测周围声音，其中所述周围声音包括在所述客户端设备附近的第二设备上正播放的媒体的声音；

根据所检测到的周围声音计算一个或多个样本音频指纹；

将所述样本音频指纹之一与所存储的第一音频指纹进行匹配，并且使用所述关联信息来识别对应于所匹配的样本音频指纹的第一视频节目；以及

向所述用户提供有关所述第一视频节目的信息，其中所述第一视频节目在所述第二设备上正被播放。

2.根据权利要求1所述的方法，其中所述第一视频节目是电视播放的电视节目。

3.根据权利要求1所述的方法，其中所述第一视频节目是电影。

4.根据权利要求1所述的方法，其中所述第一视频节目包括电视系列剧的多个剧集。

5.根据权利要求1所述的方法，其中所接收到的音频指纹是从媒体服务器接收到的，并且由所述媒体服务器根据相关性标准的集合对所接收到的音频指纹进行预先选择。

6.根据权利要求1-5中任一项所述的方法，其中根据所述相关性标准的集合预先选择所述音频指纹的集合包括将所选择的集合限制为预定义的最大数量。

7.根据权利要求6所述的方法，其中所述预定义的最大数量是100。

8.根据权利要求1-5中任一项所述的方法，其中根据所述相关性标准的集合预先选择所述音频指纹的集合包括基于所存储的所述用户的偏好来选择所述音频指纹中的一个或多个。

9.根据权利要求1-5中任一项所述的方法，其中根据所述相关性标准的集合预先选择所述音频指纹的集合包括基于所述用户之前进行的搜索查询来选择所述音频指纹中的一个或多个。

10.根据权利要求1-5中任一项所述的方法，其中根据所述相关性标准的集合预先选择所述音频指纹的集合包括基于与所选择的一个或多个音频指纹相关的视频节目的流行度来选择所述音频指纹中的一个或多个。

11.根据权利要求1-5中任一项所述的方法，其中根据所述相关性标准的集合预先选择所述音频指纹的集合包括基于所述用户之前收看与所选择的一个或多个音频指纹相关的视频节目来选择所述音频指纹中的一个或多个。

12.根据权利要求1-5中任一项所述的方法，其中向所述用户提供有关所述第一视频节目的信息响应于用户提交搜索查询，并且其中所述信息包括适配于所述第一视频节目的搜索结果。

13.根据权利要求1-5中任一项所述的方法，其中有关所述第一视频节目的信息包括有关所述视频节目的演员阵容成员的信息。

14.根据权利要求1-5中任一项所述的方法，其中向所述用户提供有关所述第一视频节目的信息包括针对搜索查询提供自动完成建议，并且其中所述自动完成建议基于所述第一视频节目。

15.根据权利要求14所述的方法，其中从由对应于所述第一视频节目的视频节目名称、所述第一视频节目中的演员姓名和所述第一视频节目中的角色名称所组成的群组中选择所述自动完成建议。

16.一种用于向用户提供场境感知信息的客户端设备，包括：

一个或多个处理器；

麦克风；

存储器；以及

存储在所述存储器中的、被配置为由所述一个或多个处理器执行的一个或多个程序，所述一个或多个程序包括指令，所述指令用于：

将所接收到的音频指纹和关联信息存储在所述存储器中；

根据所检测到的周围声音计算一个或多个样本音频指纹；

将所述样本音频指纹之一与所存储的第一音频指纹进行匹配，并且使用所述关联信息来识别对应于所匹配的样本音频指纹的第一视频节目；并且

17.根据权利要求16所述的客户端设备，其中用于接收所述音频指纹的所述指令包括用于从媒体服务器接收所述音频指纹的指令，其中由所述媒体服务器根据相关性标准的集合对所述音频指令进行预先选择，并且其中根据所述相关性标准的集合预先选择所述音频指纹的集合包括将所选择的集合限制为预定义的最大数量。

18.根据权利要求17所述的客户端设备，其中根据所述相关性标准的集合预先选择所述音频指纹的集合包括基于用户之前进行的搜索查询来选择所述音频指纹中的一个或多个。

19.根据权利要求16所述的客户端设备，其中用于向用户提供有关所述第一视频节目的信息的所述指令包括用于响应于用户提交搜索查询来提供所述信息并且提供适配于所述第一视频节目的搜索结果的指令。

20.一种存储一个或多个被配置为由具有一个或多个处理器、麦克风和存储器的客户端设备执行的程序的非瞬态计算机可读存储介质，所述一个或多个程序被配置为由所述一个或多个处理器来执行并且包括指令，所述指令用于：

将所接收到的音频指纹和关联信息存储在所述存储器中；

根据所检测到的周围声音计算一个或多个样本音频指纹；

将所述样本音频指纹之一与所存储的第一音频指纹进行匹配并且使用所述关联信息来识别对应于所匹配的样本音频指纹的第一视频节目；并且

向用户提供有关所述第一视频节目的信息，其中所述第一视频节目在所述第二设备上正被播放。

21.一种用于向用户提供场境感知信息的客户端设备，包括：

一个或多个处理器；

麦克风；

存储器；和

存储在所述存储器中的、被配置为由所述一个或多个处理器执行的一个或多个程序，所述一个或多个程序包括用于执行根据权利要求1-15中任一项所述的方法的指令。

22.一种非瞬态计算机可读存储介质，存储被配置为由具有一个或多个处理器、麦克风和存储器的客户端设备执行的一个或多个程序模块，所述一个或多个程序模块被配置为由所述一个或多个处理器来执行，并且包括用于使得所述客户端设备执行根据权利要求1-15中任一项所述的方法的指令。