概要

例えば,情報系の学部・学科に重点をおいている,あの大学の特徴は農学部だというように,大学ごとになにかしら特色があるのではないだろうか.そのような特色は,そこに属する研究者など活動にもあらわれ,ひいては Web 上のデータにおいて学会と大学名の共起件数にもなにかしらの影響があると考えられる.

よって,本調査では,2部グラフをWebから抽出する手法を利用して,学会を属性とした大学の類似ネットワークを作成することで,大学ごとの特徴がどこにあるのかを明らかにすることを試みる.そして,それぞれの大学の隣近所となる大学はどこなのか図示してみる.

目的

この調査の目的は,Webから2部グラフを抽出することで,どのような情報が得られ,そして活用が可能であるかを調べることにある.その一つの事例として行ったのが「大学」と「学会」との2部グラフの作成である.よって,現時点では特定の目的に合わせたデータ処理の最適化などは考えていない.

ただし,このような2部グラフを活用することで,受験や就職(転職も含む)の推薦エンジンへの応用などにつながればよいと思っている.

類似度を用いたネットワークの生成

準備

ノードとする大学名ならびに学会名のリストを準備.

  • RL-List
  • 育英会で免除職としてしている主な機関(ただし,大学以外の学校・地方試験所などは除外)のリストを作成した.

大学間の類似度の計算

2部グラフを作成したときと同じ手法で行った.以下は,大学と学会の共起件数データである.

ネットワーク図の作成

ネットワーク図は,各大学間のコサイン類似度を用いて行う.ただし,カイ二乗値を用いた補正は行わっていない.その理由としては,カイ二乗による補正を行うと突出したデータがある場合に,少ない数値の値は,他のノード値よりも相対的に大きくてもゼロになってしまうことがあるため,必ずしも適切な類似度が計算できていないように思われるため.なお,これに関して十分な根拠はない.

大学間のネットワークを作成するに辺り,大学を3つのクラスに分ける.

ネットワーク図

  • クラス1のネットワーク(neato, png, 205kB) SVG
  • 閾値: 0.85, 最低次数: 1 の時のネットワーク図

    旧帝国大学を中心とした総合大学のクラスタや医科大学.教育大学あたりはきれいにクラスタとなっていることが見て取れる.

  • クラス1+2のネットワーク (neato, png, 318kB) SVG
  • 旧帝国大学クラスタを含む島は変わらずに,もう一方の島にほとんどの公立大学は属している.主に,看護系の大学や医科大学のクラスタができている.

  • クラス1+2+3のネットワーク (neato, png, 1.2MB) SVG
  • 閾値:0.9, 最低次数:1のネットワーク図

ご近所である大学同士をクラスタリングしてみる

各大学間のコサイン類似度を用いて最長距離法でクラスタリンスした結果を以下に樹形図にて示す.このクラスタリングの作業も,2部グラフのときと同じく統計解析ソフト R を使用して行っている.

  • ネットワークデータ1のクラスタリング後の樹形図 (png, 30kB)
  • この樹形図から東京芸術大学,山形大学,東京歯科大学,岐阜大学あたりが独自色ある学会活動が行われていると想像されるが具体的にはどのあたろだろうか?岐阜大学だと獣医学科が思いつくが,他の大学にない学部でもないので理由として十分とはいえない.

  • ネットワークデータ2のクラスタリング後の樹形図 (png, 60kB)
  • この樹形図でも,医科大学,看護系,情報系大学や教育大学などがはっきりとクラスタリングされていることが分かる.公立大学の中で,大阪私立大学と府立大学が総合大学(?)クラスター側に分類されたが,それに同じ分類がされてもよいのではないかと思われる首都大学東京は,別のクラスタになっている.これはおそらく大学名として新しいものであるために,論文や学会活動に関する WebPage などの量的なものが足りないためではないかと推測され,この辺りが大きく2つのクラスターが形成される理由があるのではないかと考えている.明確な根拠はまったくないが.

  • ネットワークデータ3のクラスタリング後の樹形図 (png, 150kB)
  • 現時点(2007/07/18)では,RL-List にあるすべての研究機関にたいしてのデータは取得できていない.

大学特色ネットワークの構造的特徴

閾値を0.85, 最低次数を増やしたときのネットワークの構造的特徴量を計算.平均距離は,おそらく最大クラスターの距離を計算している.

ネットワークデータ1

ネットワークの構造的特徴量
最小次数  次数平均  平均距離  クラスタリング係数  直径  次数分布 
111.7071.132020.6761458 png
211.9554.435650.75466912 png
312.31464.024510.72507910 png
412.7423.732120.73298210 png
513.2353.610060.7076539 png
513.2793.379210.7169998 png

ネットワークデータ2

ノード数165のネットワーク

ネットワークの構造的特徴量
最小次数  次数平均  平均距離  クラスタリング係数  直径  次数分布 
114.0481.720990.6235567 png
214.2671.667330.6904966 png
314.5824.148410.68194711 png
414.9333.816330.6742710 png
515.3333.68610.66787210 png
615.7333.514930.6739449 png

ネットワークデータ3

ノード数 680 のネットワーク

ネットワークの構造的特徴量
最小次数  次数平均  平均距離  クラスタリング係数  直径  次数分布 
114.0483.26740.61239312 png
214.2673.541070.65566312 png
314.5823.551520.65279212 png
414.9333.443610.65160810 png
515.3333.398120.65013510 png
615.7333.332060.6454999 png

ツール・プログラム

参考文献
[1] Web上の情報からの人間関係ネットワークの抽出
松尾 豊, 友部 博教, 橋田 浩一, 中島 秀之, 石塚 満
人工知能学会誌,2005,pp.46-56
産業技術総合研究所, 東京大学
KW:
Ontologies are us: A unified model of social networks and semantics
Peter Mika
4th International Semantic Web Conference (ISWC 2005),2005,pp.522--536
In our work we extend the traditional bipartite model of ontologies with the social dimension, leading to a tripartite model of actors, concepts and instances. We demonstrate the application of this representation by showing how community-based semantics emerges from this model through a process of graph transformation. We illustrate ontology emergence by two case studies, an analysis of a large scale folksonomy system and a novel method for the extraction of community-based ontologies from Web pages.
KW:
参考文献