近年, インターネットの普及とITの進化により大容量かつ多様なデータが取得できるようになり, 例えばマーケティングの分野において, 大量で多様な購買履歴データの活用が望まれている。このような多様なデータは, 大量の属性や変数を持つ高次元データとして扱うことができる。
本研究では, オンラインかつ, 多変数のアクセスログデータの解析を行う場面を想定し, 多変量時系列データの構造変化をオンラインで分析するための効果的な手法を提案した。具体的には, Yu et al.(2015)の逐次的アルゴリズムを Jerome et al.(2008)のgraphical lassoを用いた結合ベースのベイジアンネットワークに組み込むことでアクセスログデータを対象とした構造変化検知手法を構築した。本提案手法について, ゴルフ関連ECサイトのアクセスログータへの適用だけでなく, 構造が分かっている人工データを適用する実験も行い, 計算時間, 変化検出力に関して優れていることを示した。他の提案手法として, 密度クラスタリング手法(DBSCAN)におけるパラメータ設定が自動化されたAutoEpsDBSCANをさらに拡張し, 完全自動化したShirai-DBSCANを提案した。数値実験や実データによる検証により, Shirai-DBSCANは任意のクラスタ構造や外れ値への対応を可能とすることを示した。
さらに, 高次元データ解析の基礎・理論研究として, 2つの母集団の分散共分散行列が定数倍の関係にあるという帰無仮説を検定するための統計量について, その高次元条件下での漸近的挙動を調べた。また, 多母集団が想定される場合のクラスタリングを伴う回帰分析について議論した。
In recent years, the widespread use of the Internet and the evolution of Information technology enable us to acquire large volumes of various data, where for example, it is desired to utilize a large variety of purchase history data in the field of marketing. Such various data can be handled as high dimensional data that have a large number of attributes and variables.
In this research, we proposed an effective method for online analysis for detecting the structural change of multivariate time series data by assuming the situation where online and multivariate access log data was analyzed. Particularly, a method for detecting structural changes for access log data was constructed by incorporating the sequential algorithm (Yu et al. (2015)) into a joint-based Bayesian network with graphical lasso (Jerome et al. (2008)). As for the proposed method, in addition to the application to the access log data of the golf related EC site, an experiment was also conducted by applying to artificial data whose structure was known for the proposed method, which indicated that the proposed method performs better in terms of the computation time and the power of change detections. As for another proposed method, we expanded AutoEps DBSCAN in the density clustering method (DBSCAN) that automates parameter settings, and then proposed fully automated Shirai-DBSCAN. It was shown that Shirai-DBSCAN can deal with arbitrary cluster structures and outliers though numerical experiments and verifications by real data.
Furthermore, as a fundamental and theoretical study of high dimensional data analysis, statistical testing for the null hypothesis that two population covariance matrices are proportional to each other was investigated under a high dimensional setting, and the asymptotic behavior of its test statistic was discussed. Regression analysis with clustering was also studied under multiple populations.
|