なぜ国際会議情報の取得・抽出が必要なのか
あなたが研究者であるなら,自身が関わる分野の国際会議に関する情報を十分に網羅していると言えるだろうか.おそらく主要な国際会議は,ある程度,その分野にて従事していれば知らないで過ごすことは難しい.だが国際会議の数は,個人が日常的な研究活動のみで得ることが難しいほど多く,国際会議以外のシンポジウムや研究会になると多大な努力を必要とするのではないだろうか.確かに,インターネットの発展などによる情報取得に必要なコストは低くなってはいるが,会議の性質や雰囲気などを知ることはもちろん,自身が携わる分野以外での活動状況などを知ることは容易ではない.特に,新しい分野に取り組む時などは,その困難は強く感じることができ,その解決は自身の持つ社会ネットワークに依存している状況は以前から変らないように思われる.
また,ある程度,研究者で活動したものなら,数ある国際会議をどれも同じ程度で扱う事なく,何かしらの基準をもって重要度をつけているはいないだろうか.その重要度は,同じ分野で取り組む研究者同士では,ある程度共有できる基準である場合が多いが,その多くが観念的なものであり,明確な基準などは持たない.
本研究調査では,自分自身を含めた研究者が,取り組んでいる研究内容に適した発表の場,もしくは,これから取り組もうとしている課題などの調査の入り口や同様のテーマを扱っている場を知ることを目的としたシステムづくりの基礎として,Web上にあるリソースから国際会議やワークショップ,研究会などの抽出を試みる.
段階としては,まず,既存のデータベースから手作業にて抽出し,つぎに,クローラなどを用いた機械的な抽出に取り組む.
データの抽出
国際会議名の抽出
抽出するのに適しているデータベースとしては,DBLP と Libra があるが.Libraのデータは DBLP を元にしているようにおもえるが,どうだろ.Microsoft Live Academic Search で使われているデータも微妙に違う気がする.根拠はまったくないが.
DBLP は,ファーストネームが省略されているものが多くあり,Libra では,ファミリーネーム,ファーストネームともに,きちんとかかれているが,問題は,ウムラウトなどの英語以外の綴りが化けていて,検索エンジンでヒット件数を調べたりするのには不便に思えるので,DBLPから抽出することに.
Libra では,それっぽく分野を別けて提示しているので,それを使ってみるのもよいが,この分け方には何か根拠があるのだろうか.
関連研究
Conference Ranking
研究技術動向マップの構築
参考資料
国際会議データベース
- http://dbms.uni-muenster.de/conferences/
- DBLP:Computer Science Conferences & Workshops
- AllConferences.Com
- MicroSoft Libra
- Bibliographie
- List of computer science conferences: Wikipedia
論文アーカイブである DBLP に登録されている論文から機械的にリストアップした国際会議名っぽい.DBLPがつくられ始めた年ぐらいからの国際会議名は乗っている感じ.分野はComputerScienceに限られている?表記に必ずしも統一性はないので修正したものを利用.
Conference, Conventions, Trade Shows, exhibts, workshops, event, bussiness meeting などの directoryらしい.ぱっとみ,マイナーな感じの国際会議が登録されているようだが,それは,主催者が投稿することで登録されるシステムだからだろうか.
中身としては,DBLPのデータを整理したという感じがする.一定の分野(Domain)を設定して,それに関係する国際会議,Journal を分け,筆者などの Citation を内部からとトータルの計算を行っている.そのため,研究者が対外的に?知られた存在なのかどうかなどの判断がつけることが可能.
取得可能なデータとしては,Conference, Journal, Author, Paper の4種類
Author に関しては,関連する学会や,共著者などのそれっぽい情報が並んでいる.
研究論文アーカイブ
Conference Rankings
- Computer Science Conference Ranking
- Australian Ranking of ICT Conferences
- Computer Security Conference Ranking and Statistic
- Estimated impact of publication venues in Computer Science: Citeseer
- Webインテリジェンスとインタラクション研究会:重要国際会議リスト
四つの分野に分てランキングしているけど,何を基準にランキングをつけているんだろ.
優れた国際会議を判断する基準(criteria)として, Acceptance ratio, Paper quality and impact, Committee member quality, Attendee/Paper number ratio, Location, History, Industry connection を挙げている.
This analysis does not include citations where one or more authors of the citing and cited articles match. This list is automatically generated and may contain errors. Only venues with at least 25 articles are shown.
Impact is estimated using the average citation rate, where citations are normalized using the average citation rate for all articles in a given year, and transformed using ln (n+1) where n is the number of citations.
論文誌のインパクトファクター
- EventSeer.net: 国際会議の日程リスト?
- Automated Conference Rating
- ConfSearch: 関連ある国際会議などを検索できて,カレンダーぽく日程が表示される.
- Automatic Conference Quality Rating
メインは,国際会議の〆切などの日程.そこに関係している人やトピックなども扱っていて,ぱっとみ人間関係ネットワークぽいものを提示している.DBLPを使っているのかなぁ.
We would like to go beyond, and propose new algorithms that explore the structure of the "conference-paper-author" graph existent behind the "world of publications". Then, the goal would be to develop a rating algorithm that efficiently explores the structure of the publication graph.
"graph of publications"を作成....GoogleAPIを使ってデータを収集.ACM Portal, IEEExplore, DBLP database.
これって学生向けの研究募集かなぁ.
- 国際会議の位置づけは?
ところで,Computer Science の国際会議リストは Web 上でみることがあるのだが,それ以外の分野(医学,法学など?)では,国際会議の位置づけが異なるのかもしれない.
参考文献
利用する情報は,発表題目と発表者名.セッション名,プログラム委員とかも扱うみたい.
分析の手法は
- 国際会議の情報から特徴語を抽出
- 抽出した特徴語をもとに会議間の関連度を算出し,グラフを作成
- グラフをもとに会議間の関係を分析する
会議間の類似度はベクトルコサインで計算.会議間の包含関係を調べるために共通する特徴語の割合によって重みづけするため類似度は非対称.
特定の議題に関する中心度の算出という項があるが,人物名を使っての類似度の計算をしている本手法とは同じといえるかな.
上記の論文での参照内容をそのまま
- コーパスから, "and", "or" コンマで区切られた名詞 対を獲得し,名詞をノード,名詞対をリンクとしたグラフ を作成.
- 各ノードについて curvature を算出する
- curvatureが閾値以下であるノードを削除
LexRank では,あらかじめ近いドキュメント集合を用意する必要があるということから,基準点からの距離を使って類似度を測るということ?
Our system, by using the new citation metrics, emerges as a useful tool for ranking scientific collections.
データの取得方法- based on the conference impact factor ranking from CS Conference Ranking.org,
- トップ20の会議の正式な会議名を DBLP から取得.
- DBWorld から CFP を 576 取得(集合Rと定義)し,ト レーニングセットとして,2403 の CFP でテストす る
PC の Closenness, Betweenness とか調べているけど.
Closeness と Conference の quality とは相関がある. Betweenness との相関はなさそう.PageRank, Degereeは?
PC の数,論文中の共著者に占めるPCの割合, PC の closeness を使って 2分木で学習させるみたい.
ということで,既存の技術動向マップをいくつか紹介.
技術動向マップの調査対象の分類として
- 大きさ
- 発展度
- 人工度
- 学際度
- 専門家知見利用型
- データ根拠型
- 研究事例リソース
- 既存の知識体系の利用
- 研究課題分類
- 文献分類
- 特許分類
- 教科書・辞典
- 処理方法
- 時間情報 現在の情報だけ,現在と方向性,未来を記述
- 構造情報 キーワード,キーワード間の関連性,キーワードあるいは 関連性の統計的重み
提案している手法
- 論文のタイトルなどの集合を単語に切り分け
- 技術用語でないものを人の判断ではずす
- 用語の出現頻度にたいして共起率を計算して関係性を定義