研究紹介:大規模ソーシャルメディアのトピック構造化による人々の反応分析

Takako Hashimoto
橋本 隆子
千葉商科大学 副学長
商経学部 教授

橋本隆子(千葉商科大学 副学長、商経学部 教授)の研究を紹介するサイトです。
大規模ソーシャルメディアを対象として、話題を構造化することで、人々の思いや認識、SNSの炎上、風説などの不確かな状況を可視化することに取り組んでいます。オリジナルのデータマイニング手法、時系列解析などを開発しています。

Two-stage Clustering Method for Discovering People’s Perceptions: A Case Study of the COVID-19 Vaccine from Twitter

人々の認識を発見するための2段階クラスタリング手法 – 大規模Twitterデータ上のCOVID-19ワクチンに関する話題分析を事例として

Twitterは現在、最も影響力のあるマイクロブログサービスの一つであり、ユーザーはそこでさまざまなメッセージをやり取りしています。人々の認識や理解をとらえるためには、Twitterの膨大なストリームデータを分析し、Twitterの全体像を把握することが必要です。
我々は、Twitterのデータから粗視化されたトピックを自動的に発見する2段階のクラスタリング手法を開発しました。第一段階では、グラフクラスタリングを用いて、単語の共起グラフからマイクロクラスターを抽出します。マイクロクラスター内の全てのツイートは、微視的なトピックを共有しています。そして、単位時間ごとに投稿されたツイートの数をカウントすることで、各マイクロクラスターの時系列パターンを取得します。第2段階では、時系列クラスタリングを用いて、粗視化されたトピックに対応するクラスタを特定します。
本研究では,提案手法の計算効率を評価し,データ量の増加に伴うスケーラビリティの向上を実証しました.次に、日本におけるCOVID-19ワクチン接種に関する大規模なTwitterデータに提案手法を適用しました.提案手法は、ニュースに対する反応とツイートに対する反応を別々に識別することができます。

Takako Hashimoto, Takeaki Uno, Yuka Takedomi, David Shepard, Toyoda Masashi, Naoki Yoshinaga, Masaru Kitsuregawa, and Ryota Kobayashi, Two-stage Clustering Method for Discovering People’s Perceptions: A Case Study of the Covid-19 Vaccine from Twitter

Analyzing Temporal Patterns of Topic Diversity using Graph Clustering

グラフクラスタリングによる話題多様性の時系列パターン分析

災害時、ソーシャルメディア上の情報は人々にとって助けにも危険なものにもなり得ます。ソーシャルメディアは風説を拡散させる可能性があり、人々は、ソーシャルメディア上での風説の拡散に迅速に反応する必要があります。
本論文は、話題の多様性(話題内の意見の均質性)が、話題の真実性(噂か非噂か)にどのように依存するか、また、災害が発生した後、話題の多様性が時間的にどのように変化するかを分析しています。

Hashimoto, T., Shepard, D.L., Kuboyama, T. et al. Analyzing temporal patterns of topic diversity using graph clustering. J Supercomput 77, 4375–4388 (2021). https://doi.org/10.1007/s11227-020-03433-5

Time Series Topic Transition based on Micro-Clustering

マイクロクラスタリングによる時系列トピック分析

本論文では、ウェブ上の話題に対する人々の反応を示すさまざまな状況を可視化するために、マイクロクラスリングに基づく時系列トピック遷移の分析手法を提案しています。マイクロクラスターを形成するために、著者の一人である宇野 毅明教授(国立情報学研究所)が開発した独自のデータ研磨アルゴリズムを活用しています。我々の手法は,マイクロクラスタリングがトピックの時系列変化のダイナミクスを効率的に表現することを示します。

Hashimoto, T., Uno, T., Kuboyama, T., Shin, K., & Shepard, D. (2019, February). Time series topic transition based on micro-clustering. In 2019 IEEE International Conference on Big Data and Smart Computing (BigComp) (pp. 1-8). IEEE.

Twitter Topic Progress Visualization using Micro-Clustering

マイクロクラスタリングを用いたTwitterトピックの進捗状況の可視化

本論文では、マイクロクラスタリング技術を用いて、Twitter上で炎上したトピックの時系列推移を可視化する方法を提案しています。マイクロクラスタリングは、トピックのサブトピックを効率的に表現することができ、サブトピック間の時間的な遷移を効率的に構造化し表すことができます。提案手法により、Twitterユーザは、なぜそのトピックが炎上したのかをより簡単に見ることができるようになります。

Hashimoto, T., Kusaba, A., Shepard, D., Kuboyama, T., Shin, K., & Uno, T. (2020). Twitter Topic Progress Visualization using Micro-clustering. In 9th International Conference on Pattern Recognition Applications and Methods, ICPRAM 2020 (pp. 585-592). SciTePress.

Unsupervised Clustering based on Feature-value / Instance Transposition Selection

特徴量/インスタンスの転置選択に基づく教師なしクラスタリング

この論文では、FITS(Feature-value / Instance Transposition Selection)という、教師なしクラスタリングの手法を紹介しています。FITSは、扱いやすく説明可能なクラスタリング手法であり、UFVSとして知られている教師なし特徴値選択アルゴリズムを利用しています。
FITSは、UFVSの繰り返しと行列転置を交互に行うことで、データを記述する均質なクラスタを生成することが特徴です。特徴とインスタンスの役割を交互に繰り返すことで、FITSはUFVSの速度を利用して、数千の特徴とインスタンスのデータセットに対して、数十ミリ秒でクラスタリングを実行することができます。高速で効率的な特徴値選択により、説明可能なわかりやすいクラスターを得ることが可能となります。

Kusaba, A., Hashimoto, T., Shin, K., Shepard, D. L., & Kuboyama, T. (2020, November). Unsupervised Clustering based on Feature-value/Instance Transposition Selection. In 2020 IEEE REGION 10 CONFERENCE (TENCON) (pp. 1192-1197). IEEE.

Topic Life Cycle Extraction from Big Twitter Data based on Community Detection in Bipartite Networks

バイパータイトネットワークにおけるコミュニティ検出に基づくTwitterビッグデータからのトピックライフサイクル抽出

本論文では、バイパー帯とネットワークにおけるオリジナルのコミュニティ検出技術を用いて、数百万件のTweetからトピックのライフサイクルを抽出します。大規模ソーシャルメディアデータから質の高いトピックを抽出するためには、誰(Tweetをポストしたユーザー)がどのトピックに属しているかという著者の役割が重要であると考えられます。我々は既に、著者と単語の関係を二分木構造のネットワークとして考慮し、トピックとしてのクラスタを形成することで著者の役割を探索するトピック抽出法を提案している。本論文ではそれを拡張し、話題のライフサイクルとしての表現を試みています。

Hashimoto, T., Uno, T., Takedomi, Y., Shepard, D., Toyoda, M.,  Yoshinaga, N., Kitsuregawa, M. and Kobayashi, R. (2021). Two-stage Clustering Method for Discovering People’s Perceptions: A Case Study of the Covid-19 Vaccine from Twitter. BigData2021 (to appear).