MIT、ツイッターでトレンド入りするトピックスを1時間以上前に予知するアルゴリズムを開発

このエントリーをはてなブックマークに追加
Share on Facebook

マサチューセッツ工科大学(MIT)が、ツイッターで「トレンド入り」するトピックスを1時間以上前に予知するアルゴリズムを開発したとのこと。95%の精度で予知できるという。

Graphic: Christine Daniloff

平均で1時間半前には予知できる。4~5時間前から予知できる場合もある。ツイッターの広告リンクに対して大きな利益を与える可能性のあるアルゴリズムだが、それだけではなく、時間の経過に伴って変化する量であれば何にでも応用できる統計分析手法であるといえる。例えば、バスの乗車時間、映画のチケットの売上げ、株価などにも応用可能であるという。

すべての機械学習アルゴリズムと同様、このアルゴリズムも「訓練」される必要がある。訓練では、過去にトレンド入りしたトピックスとしなかったトピックスのデータセットを精査し、意味のあるパターンを見つけ出す。特徴的なのは、これがノンパラメトリックな方法、すなわち、パターンの形について一切の前提を置かないものであることだという。

研究チームの電気工学・コンピュータ科学准教授 Devavrat Shah 氏によれば、標準的な機械学習では、推定のために必要なパターン形状についての一般的仮説があらかじめモデル化されている。ツイッターでトレンド入りするトピックスでいえば、最初は少ない数のつぶやきが続き、ある時点で投稿数が大きくジャンプする段階がくるというシンプルなモデルが作れる。しかし、こうしたモデルを使って訓練を行う場合、どれがジャンプしそうなトピックスなのか研究者には分からないという問題がある。そこで、今回のアルゴリズムでは、どのトピックスがジャンプしそうかをデータ自身に決めさせるようにした。

具体的には、同アルゴリズムでは、新しいトピックスについてのつぶやき数の経時変化を訓練用データセット内のすべてのサンプルの経時変化と比較する。新しいトピックスとあるサンプルの統計値が似ている場合には、トレンド入りを予測する上でそのサンプルに重みをつける。このように重みづけを行ってから、新しいトピックスがトレンド入りするかどうかをすべてのサンプルに投票させる。重みづけが異なるので、あるサンプルの投票は他のサンプルよりも多くカウントされる。投票結果は合計され、新しいトピックスがトレンド入りする可能性についての確率的予測値が出される。

実験では、トレンド入りしたトピックス・しなかったトピックスそれぞれ200個のデータからなる訓練用セットを使用した。実際のツイッター上でアルゴリズムがリアルタイムに動くようにしたところ、95%の精度でトレンド入りを予知できた。トレンド入りしなかったトピックスをトレンド入りすると誤判定した割合(偽陽性率)は4%だった。訓練用のデータセットの規模をもっと大きくすれば精度はさらに向上するという。


発表資料

おすすめ記事

Related Posts Plugin for WordPress, Blogger...