なぜ国際会議情報の取得・抽出が必要なのか

あなたが研究者であるなら,自身が関わる分野の国際会議に関する情報を十分に網羅していると言えるだろうか.おそらく主要な国際会議は,ある程度,その分野にて従事していれば知らないで過ごすことは難しい.だが国際会議の数は,個人が日常的な研究活動のみで得ることが難しいほど多く,国際会議以外のシンポジウムや研究会になると多大な努力を必要とするのではないだろうか.確かに,インターネットの発展などによる情報取得に必要なコストは低くなってはいるが,会議の性質や雰囲気などを知ることはもちろん,自身が携わる分野以外での活動状況などを知ることは容易ではない.特に,新しい分野に取り組む時などは,その困難は強く感じることができ,その解決は自身の持つ社会ネットワークに依存している状況は以前から変らないように思われる.

また,ある程度,研究者で活動したものなら,数ある国際会議をどれも同じ程度で扱う事なく,何かしらの基準をもって重要度をつけているはいないだろうか.その重要度は,同じ分野で取り組む研究者同士では,ある程度共有できる基準である場合が多いが,その多くが観念的なものであり,明確な基準などは持たない.

本研究調査では,自分自身を含めた研究者が,取り組んでいる研究内容に適した発表の場,もしくは,これから取り組もうとしている課題などの調査の入り口や同様のテーマを扱っている場を知ることを目的としたシステムづくりの基礎として,Web上にあるリソースから国際会議やワークショップ,研究会などの抽出を試みる.

段階としては,まず,既存のデータベースから手作業にて抽出し,つぎに,クローラなどを用いた機械的な抽出に取り組む.

データの抽出

国際会議名の抽出

抽出するのに適しているデータベースとしては,DBLP と Libra があるが.Libraのデータは DBLP を元にしているようにおもえるが,どうだろ.Microsoft Live Academic Search で使われているデータも微妙に違う気がする.根拠はまったくないが.

DBLP は,ファーストネームが省略されているものが多くあり,Libra では,ファミリーネーム,ファーストネームともに,きちんとかかれているが,問題は,ウムラウトなどの英語以外の綴りが化けていて,検索エンジンでヒット件数を調べたりするのには不便に思えるので,DBLPから抽出することに.

Libra では,それっぽく分野を別けて提示しているので,それを使ってみるのもよいが,この分け方には何か根拠があるのだろうか.

関連研究

Conference Ranking

論文誌にインパクト・ファクターがあるように,国際会議にも重要度

研究技術動向マップの構築

参考資料

国際会議データベース

  • http://dbms.uni-muenster.de/conferences/
  • DBLP:Computer Science Conferences & Workshops
  • 論文アーカイブである DBLP に登録されている論文から機械的にリストアップした国際会議名っぽい.DBLPがつくられ始めた年ぐらいからの国際会議名は乗っている感じ.分野はComputerScienceに限られている?表記に必ずしも統一性はないので修正したものを利用.

  • AllConferences.Com
  • Conference, Conventions, Trade Shows, exhibts, workshops, event, bussiness meeting などの directoryらしい.ぱっとみ,マイナーな感じの国際会議が登録されているようだが,それは,主催者が投稿することで登録されるシステムだからだろうか.

  • MicroSoft Libra
  • 中身としては,DBLPのデータを整理したという感じがする.一定の分野(Domain)を設定して,それに関係する国際会議,Journal を分け,筆者などの Citation を内部からとトータルの計算を行っている.そのため,研究者が対外的に?知られた存在なのかどうかなどの判断がつけることが可能.

    取得可能なデータとしては,Conference, Journal, Author, Paper の4種類

    Author に関しては,関連する学会や,共著者などのそれっぽい情報が並んでいる.

  • Bibliographie
  • List of computer science conferences: Wikipedia

研究論文アーカイブ

Conference Rankings

論文誌のインパクトファクター

関連ある学会,研究会や国際会議など
Internatioanl Canference
International WorkShop
研究会
学会
関連サイト
  • EventSeer.net: 国際会議の日程リスト?
  • メインは,国際会議の〆切などの日程.そこに関係している人やトピックなども扱っていて,ぱっとみ人間関係ネットワークぽいものを提示している.DBLPを使っているのかなぁ.

  • Automated Conference Rating
  • We would like to go beyond, and propose new algorithms that explore the structure of the "conference-paper-author" graph existent behind the "world of publications". Then, the goal would be to develop a rating algorithm that efficiently explores the structure of the publication graph.

    "graph of publications"を作成....GoogleAPIを使ってデータを収集.ACM Portal, IEEExplore, DBLP database.

    これって学生向けの研究募集かなぁ.

  • ConfSearch: 関連ある国際会議などを検索できて,カレンダーぽく日程が表示される.
  • Automatic Conference Quality Rating
課題
  • 国際会議の位置づけは?
  • ところで,Computer Science の国際会議リストは Web 上でみることがあるのだが,それ以外の分野(医学,法学など?)では,国際会議の位置づけが異なるのかもしれない.

参考文献

インターネット上のデータベース情報
横田一正
IPSJ Magazine(1998),pp.1--5
インターネット上の研究に関するデータベースの動向について(1998年現在).おもに論文のアーカイブに関するデータベースについて言及している.
Keyword: DBLP
グラフ的手法による国際会議プログラム情報の解析
野呂智哉, 根岸秀典, 徳田雄洋
日本ソフトウェア科学会全国大会(2005),pp.1--8
Webで公開されている国際会議に関する情報をもとに国際会議のネットワークを構築して,そのネットワークから国際会議間の関係や,その会議で扱う主要な話題,特定の話題に関する中心的な会議の発見手法を提案している.
利用する情報は,発表題目と発表者名.セッション名,プログラム委員とかも扱うみたい.
分析の手法は
  1. 国際会議の情報から特徴語を抽出
  2. 抽出した特徴語をもとに会議間の関連度を算出し,グラフを作成
  3. グラフをもとに会議間の関係を分析する
特徴語の抽出は,TreeTaggerで形態素解析し,一定の閾値以上の単語を特徴語としている.なお,特徴語となるだろう候補リストを用意しているらしい.
会議間の類似度はベクトルコサインで計算.会議間の包含関係を調べるために共通する特徴語の割合によって重みづけするため類似度は非対称.
特定の議題に関する中心度の算出という項があるが,人物名を使っての類似度の計算をしている本手法とは同じといえるかな.
とりあえずヘエと思ったので保存.中心的会議の発見とかいう単語が目についたので,目的はいっしょかなぁ.
Keyword: DBLP
Using Curvature and Markov Clustering in Graphs for Lexical Acquisition and Word Sense Discrimination
Beate Dorow, Dominic Widdows, Katarina Ling, Jean-Pierre Eckmann, Danilo Sergi, Elisha Moses
Workshop organized by the MEANING Projects(2005),pp.XX
名詞を分類する手法を国際会議を分類する手法に転用するっぽい
上記の論文での参照内容をそのまま
  1. コーパスから, "and", "or" コンマで区切られた名詞 対を獲得し,名詞をノード,名詞対をリンクとしたグラフ を作成.
  2. 各ノードについて curvature を算出する
  3. curvatureが閾値以下であるノードを削除
curvature = clustering coefficient ?
Keyword: DBLP
LexRank: Graph-based lexical centrality as salience in text summarization
Günes Erkan, Dragomir R. Radev
Journal of Artificial Intelligence Research(2004),pp.457--479
グラフを利用してドキュメント集合から重要文を抽出する手法を提案している.グラフから得られる行列Bの転地行列BTをもちいて p = BTp を満たす行列から重要文を決定する......?
LexRank では,あらかじめ近いドキュメント集合を用意する必要があるということから,基準点からの距離を使って類似度を測るということ?
Keyword: DBLP
Measuring Conference Quality by Mining Program Committee Characteristics
Ziming Zhuang, Ergin Elmacioglu, Dongwon Lee, C. Lee Giles
Proceedings of the 2007 conference on Digital libraries(2007),pp.225--234

Our system, by using the new citation metrics, emerges as a useful tool for ranking scientific collections.

データの取得方法
  • based on the conference impact factor ranking from CS Conference Ranking.org,
  • トップ20の会議の正式な会議名を DBLP から取得.
  • DBWorld から CFP を 576 取得(集合Rと定義)し,ト レーニングセットとして,2403 の CFP でテストす る
とりあえずの仮説として,よい会議は,たくさんの論文が投 稿されるから,多くの PC を必要とする.
PC の Closenness, Betweenness とか調べているけど.
Closeness と Conference の quality とは相関がある. Betweenness との相関はなさそう.PageRank, Degereeは?
PC の数,論文中の共著者に占めるPCの割合, PC の closeness を使って 2分木で学習させるみたい.
Keyword: Bibliometrics, program committee, social network analysis, data mining, ranking, impact factor, call for papers
学術分野動向把握のためのオントロジー構築
荒木次郎,
人工知能学会研究会 セマンティックウェブとオントロジー研究会(2007),pp.02-01 -- 02-08
国では,政策決定のために文献や特許などの統計的な調査や,技術の方向性を議論するためにロードマップの策定などが行われている.企業においては,市場開拓や技術開発の方向性を検討するのに,動向の把握が必要.個々の研究者の場合は,研究の方向性をきめる才にコミュニティが共有する課題や方向性の把握が必要であるし,打開策や応用分野の把握のために異なる研究コミュニティを知る必要がある.
ということで,既存の技術動向マップをいくつか紹介.
技術動向マップの調査対象の分類として
  • 大きさ
  • 発展度
  • 人工度
  • 学際度
構築手段の分類として
  • 専門家知見利用型
  • データ根拠型
    • 研究事例リソース
    • 既存の知識体系の利用
      • 研究課題分類
      • 文献分類
      • 特許分類
      • 教科書・辞典
    • 処理方法
掲載されている情報は
  • 時間情報
  • 現在の情報だけ,現在と方向性,未来を記述
  • 構造情報
  • キーワード,キーワード間の関連性,キーワードあるいは 関連性の統計的重み

提案している手法
  1. 論文のタイトルなどの集合を単語に切り分け
  2. 技術用語でないものを人の判断ではずす
  3. 用語の出現頻度にたいして共起率を計算して関係性を定義
Keyword: DBLP
Object-Level Ranking: Bringing Order to Web Objects
Zaiqing Nie, Yuanzhi Zhang, Ji-Rong Wen, Wei-Ying Ma
In Proceedings of the 14th international World Wide Web conference (WWW 2005)(2005),
Libra のデータは,この時点で, 1 million papers, 650,000 authors, 1700 conferences, and 480 journals. らしい
Keyword: Web Information Retrieval, Web Objects, PageRank, PopRank, Link analysis
Web Object Retrieval
Zaiqing Nie, Yunxiao Ma, Shuming Shi, Ji-Rong Wen, Wei-Ying Ma
In Proceedings of the 16th international World Wide Web conference (WWW 2007)(2007),
Keyword: Web Objects, Information Retrieval, Language Model, Information Extraction
Extracting Objects from the Web
Zaiqing Nie, Fei Wu, Ji-Rong Wen, Wei-Ying Ma
In Proceeding of the 22nd International Conference on Data Engineering (ICED 2006)(2006),
Keyword: