研究概要

DBLPを用いた共起関係の抽出

DBLPのデータには,incollection, proceedings, inproceedings, book, article, www, pdthesis, mastertheis などのデータが格納されている. XMLデータファイルは,440MB(2008.2.25日現在)となっているので,処理をするには,データベースにしまってから分析するか,DBLPの検索エンジンに負荷をかけるかをしたほうが良さそう.めんどくさいので,やっつけでパーサーを書いて処理したけど.

DBLPのデータスキーム

DBLPのデータスキームは以下のような形になっている.

  • article データ
  • Journal Paper のデータ <article> <author></author>+ <title></title> <pages></pages> <year></year> <volume></volume> <journal>論文タイトルっぽい</journal> <number></number> <ee>??</ee> <url>journalの目次一覧へのリンクっぽい</url> </article>
  • inproceedings データ
  • 国際会議,研究会などの論文データ.会議名としては 3000.研究者名は,ぐらいのアイテムがあるみたい.

    <inproceedings> <author></author>+ <title>論文のタイトルな感じ</title> <pages></pages> <year></year> <crossref></crossref> <booktitle>会議名(主に略称で登録されている)</booktitle> <ee>??</ee> <url>国際会議の発表論文のページ</url> </inproceedings>
  • proceedings データ
  • Lecture Notes などのポストプロシーディングのデータ?

    <proceedings> <editor></editor>+ <title></title> <booktitle></booktitle> <publisher></publisher> <series></series> <volume></volume> <isbn></isbn> <year></year> <url></url> </proceedings>
  • incollection データ
  • pdthesis
  • masterthesis

DBLPに登録されているデータ

2008.02.27 日現在で,やっつけパーサーでデータをまとめて見た.

  • Articleのデータ
  • InProceedingsのデータ
  • 登録件数の多い国際会議 ( )内は件数.なお,分野に関しては適当に書いている.

    1. ICRA (7975): ロボット系?
    2. ISCAS (4491):
    3. Winter Simulation Conference (4291):
    4. IJCAI (4130): 人工知能系
    5. INFOCOM (3961):
    6. DAC (3610):
    7. NIPS (3131): 自然言語系?
    8. Int. CMG Conference(3035) :
    9. AAAI (3019): 人工知能系
    10. SAC (2680):
    11. PDPTA (2578):
    12. ITC (2510):
    13. ICIP (2476):
    14. VLDB (2442): データベース系
    15. WebNet (2146): Web系?

    このデータは,国際会議名に "(1)" とか,"Vol.1" などがついているデータの成形を行っていない.

  • Proceedingsのデータ

会議名の重複に関して

DBLPでは,会議名は省略形で登録されている.ただし,それでは,重複するものが当然存在する.

たとえば,ISWC は,セマンティックWeb関連の国際会議の International Semantic Web Conference があるが,DBLP では ISWC では登録されていない.ISWC は,International Symposium on Wearable Computers として登録されている.同様の例は多々あるので注意が必要である.

特殊文字に関して

XMLデータには,HTML での利用を前提としているのか,ウムラウトなどは HTML用の特殊文字として登録されている.グラフなどに表示する際には,適度に変更する必要がある.

抽出したデータ

国際会議ネットワークの形成

プログラム

以下のプログラムは,2部グラフマイニングで作成したプログラムを大規模なデータでも扱えるように改良したものである.

  • x2_sm.rb
  • 共起頻度データをカイ自乗分布におとしこむためのプログラム.

    計算式としては,行i,列j の値 Co_ij を期待値 Co_ij^ex を用いて (Co_ij - C_ij^ex)^2 / C_ij^ex で補正.ただし,Co_ij - Co_ij^ex < 0 のときには,0 としてあつかう.

    これにより,共起頻度より表現される各要素の特徴ベクトルの特徴点が強調される.

       % ./x2_sm.rb -f [共起頻度データファイル] 
  • veccos_sm.rb
  • pub, auth は,コサイン類似度の計算をするのが行方向(row)か,それと列方向(col)を作成するのか指定している.そのうち row or col に変更する予定でいる

    実際には,プログラムをサボっているため,auth = 行 しか有効ではなく,pubはどんな名前でもパスする.

       % ./veccos_sm.rb {pub|auth} [共起ベクトルデータファイル名] 
  • generate_g_data_DBLP.rb
  • 本プログラムは,類似度行列のデータから,ネットワークデータ(graphviz形式)を出力する.カラーテーブルは,類似度行列の名前に併せて,各自作成する必要がある.

       % ./generate_g_data_DBLP [類似度行列データファイル名] [閾値] [カラーテーブル] > [出力ファイル名] 
  • ネットワーク図(全体)SVG(412kB)
  • ネットワーク図(全体・ラベル付)PNG(2.1MB)
課題
  • ファーストネームが省略されている場合があるので,それを取り除く必要があるかも
  • 国際会議名も "(1)" とかついているものあるみたいだが,そういうのは省いた方がよいだろうか.
関連研究サーベイ
発表論文
参考文献