おそらく今年も世界中で1億人以上の人が、第52回スーパーボウル、ニューイングランド‧ペイトリオッツ対フィラデルフィア‧イーグルスの試合を観戦したことでしょう。この中で繰り広げられる恒例行事の1つに、どの企業が試合の合間に最高のCMを流したか、というものがあります。

AmazonはAlexaをフィーチャーしたスーパーボウルCMを今週初めに披露し、注目度が急上昇しています。それはジェフ‧ベゾスを始めカーディ‧B、ゴードン‧ラムゼイ、レベル‧ウィルソン、サー‧アンソニー‧ホプキンスなどの有名人が出演しているからです。 CMが始まって3秒後に、バスルームにいる女性が「アレクサ、今日の天気は?」と尋ねます。

しかし、この90秒のCMが試合の中継される日曜の夜にオンエアされても、何百万台のEchoデバイスが「アレクサ」のフレーズに反応してしまうことはありません。これは、コマーシャルと実際のお客様の声とを識別する音響指紋技術のおかげです。

マサチューセッツ州ケンブリッジのAlexa機械学習チームのシニアマネージャーであるシヴ‧ヴィタラデヴニは次のように述べています。 「大事なのは、毎日Alexaを利用している何百万人のお客様に影響を与えず、意図しない反応を防ぐことです。」

Amazonの広告チーム、エンジニアチーム、サイエンスチームでスーパーボウルのような大イベントはある程度予測することができますが、例えば「ザ‧トゥナイト‧ショー」の司会者、ジミー‧ファロンがAlexaをネタにしたコメディーをして、チームがそれを事前に予測することができなかったらどうでしょう?

音声認識のディレクター、マノジュ‧シンドゥワニ氏によると、当社のチームは音響指紋をオンザフライ方式でAWSクラウド内に構築しています。複数のデバイスが同時に放送音声に反応し始めると、似通った音声信号がAlexaのクラウドサービスにどんどん流れ込んできます。Amazonのクラウド内のアルゴリズムは別々のデバイスから生じる同じ音声信号を探知し、それ以上のデバイスが反応するのを制御します。このダイナミック(動的)指紋技術はまだ完璧ではありませんが、このおかげで80~90%のデバイスが放送音声に反応しなくなっています。

ディープニューラルネットワーク(DNN)を使った呼びかけ語の探知を通じてAlexaを日々賢くしているサイエンスについては、こちらをご覧ください。