研究概要
オンライン書店の類似提示データの取得方法
オンライン書店の対象として Amazon を選択した.Amazon では API を使うことで,あるアイテムの近似商品のデータを取得できる.取得方法は,ある商品の近似商品の情報を取得し,次に取得した近似情報の中から近似情報が未取得のアイテムの情報を取得するのを繰り返し,商品の類似関係をリンクとしてネットワークを構築した.
よって,現時点で扱っているネットワークは,ある商品を始点として探索した,連結成分のみであり,特に,新製品ほどネットワークのノードに含まれていないと思われる.
オンライン書店の類似表品ネットワークデータ
以下のデータは,AmazonのAPIを用いて,商品の ASIN:B00005Q8H(呼吸)をもとに集めた連結成分である.類似表品データは「検索対象ASIN 類似表品ASIN*」となっており,各商品最大10個の類似表品データが獲得できている.
ネットワークデータは幅優先探索となっている.
本データは,2007/1/30 - 2/10, 4/19-22の長期間をかけて獲得したデータであり,類似商品データは一度しか獲得していない.そのため,ネットワークデータに時間的なずれが生じているものと考えられる.
といっても,400000アイテムのデータを API経由で獲得するには400000秒=6666分=111時間とほぼ5日間は必要であるため.いずれにしても時間的なずれは生じる.
- 類似表品データ(gzip,12M)解凍後35M
- 類似表品提示ネットワーク(gzip,16M)解凍後85M, graphviz形式データ
なお,ネットワークデータは,便宜上,双方向ネットワーク データになっている.基本的には,有向ネットワークなデータで あるので,必要であればもとデータからの作成をすすめる.
類似商品提示ネットワークの構造的特徴
対象とするネットワークの構造的特徴を示す指標は以下である.
- N = 405555, K = 3235106, <K> = 15.954- L = 7.863, C = 0.461, D = 31
平均パス長は,十分に小さく,その一方でクラスタリング計数は大きい.典型的なスモールワールドネットワークの性質を備えたネットワークだと思われるが,同規模の正則ネットワークを作成できていないため検証はできていない.
類似商品提示ネットワークの次数分布
N=2748, K=9695 |
N=38579, K=172947 |
N=79155, K=395331 |
N=358542, K=2787239 |
この次数分布は,入力次数も出力次数もあわせて出力している.出力次数は,最大10であり,オンライン商品にリストアップされてからある程度時間がたった(予約がされるなどにより関係性データを得られた)ものであれば,10程度のリンクを持っている.
オンラインでの商品販売という性格上,流行り廃りが早いと思うのだが,それを知るには継続的な観察が必要.