SANDBOX /

/ 試作・実験

SANDBOX / 試作・実験

2023.03.01.

SANDBOX

Spotter

学術論文の共引用・書誌結合ネットワークを可視化し、引用の構造から研究の文脈をたどれる論文探索デモ。

  • Neo4j
  • Semantic Scholar API
  • Pinecone
  • DynamoDB / MongoDB
  • 知識グラフ
  • LLM 要約

Spotter

何を作ったか

Semantic Scholar の論文データ(約 2 億件 / 6,000 万著者 / 30 億引用)を Neo4j で知識グラフ化し、共引用・書誌結合・引用コンテキストを軸に先行研究をたどれる、学生・研究者向けの論文探索デモ。
キーワード検索の延長ではなく、引用構造そのものを「歩いて」関連研究を発見する体験 を狙っている。

なぜ作ったか

学術論文の探索は、いまだに「タイトルとアブストラクトをキーワードで照合する」発想に縛られがちで、論文同士が引用と共引用で形作っている 本来の文脈マップ が見えにくい。
ハブになっている研究者を見つけ、研究の流れを辿り、次に読むべき一本にたどり着く――この営みを、検索体験ではなく グラフ構造の上を歩く体験 として組み直したかった。

できること

  • 検索:全文 / セマンティック / 共引用 / 書誌結合 / 引用コンテキスト の 5 系統を 1 つの UI に集約
  • 論文要約:Contribution / Limitation / Abstract(日英)を生成して並べて表示
  • 可視化:論文の引用関係、著者同士の関連性をネットワークグラフで表現(関連の強さでエッジの太さを変える)
  • グラフ解釈:選択範囲やクラスタについて「主要研究者は誰か」「研究の流れはどう変わってきたか」を LLM が自然言語で説明
  • 多言語:日本語クエリ → 英語への自動変換、Abstract の日本語翻訳表示
  • フィルタ:被引用数や出版年で結果を絞り込み
  • 拡張領域:お気に入り・プロンプトカスタマイズ・PDF 取り込み + LLM 解析・チーム共有

デモ動画

画面

論文の歴史をたどる引用ネットワーク

選択した論文の Citation Links を時系列に展開し、研究の系譜が一枚の地図として見える。左の論文リストから対象を変えると、グラフと右の Abstract / 引用数も連動して切り替わる。

特定論文と関係の深い著者の検索

論文を起点に、共引用の頻度から研究者同士の相関をネットワーク表示。コミュニティ内のハブとなる人物が浮かび上がる。

特定論文の著者との共引用

選択した論文と同じ文脈で引用されることが多い論文を一覧化。研究の流れを直感的にたどれる。

特定論文の著者との書誌結合

参照している文献が一致する論文をリストアップ。キーワードに頼らず、引用の構造から関連研究を発見できる。

技術スタック・工夫

Neo4j(知識グラフ)

論文・著者・引用関係をすべてノードとエッジでモデリングし、引用コンテキスト(その引用が「比較」「反論」「拡張」のどれにあたるか)もエッジ属性として持たせている。
6,000 万著者 × 30 億引用というスケールをインメモリで歩けるようにするため、Neo4j サーバーは大規模インスタンスを 1 台専有。

  • メモリ:1024 GB
  • コア:80 コア
  • 役割:ページ単位ではなくサブグラフ単位で結果を返し、可視化用の構造をサーバー側で整形

データソース・前処理

  • Semantic Scholar API の 2023 年 3 月時点のスナップショットを取り込み、独自スキーマで Neo4j に再構築
  • 著者の同一性解決(同名異人・同表記異人)と、引用コンテキスト分類が前処理の山
  • 2 億論文分の PageRank スコアを事前バッチ計算 して MongoDB に格納し、検索時に都度計算せず即時にランキングできるようにした

検索

  • セマンティック検索は Pinecone のベクトルインデックスと、Neo4j 上の引用近傍を組み合わせ、「キーワードが一致しない近接論文」も拾えるように
  • 英語クエリの場合、最適化後の応答時間は 約 1.5 秒

LLM レイヤー

  • 論文ごとに Contribution / Limitation / Abstract(日英)を要約
  • グラフ上で選択したクラスタや著者集合について、その性格や研究の流れを自然言語で説明
  • 要約は事前バッチではなく、必要なものから順に生成 → キャッシュする方式

インフラ

  • AWS 上で ECS / API Gateway / Lambda を中核に構成。IaC は Terraform Cloud、tag push で本番 CD が発火
  • DynamoDB に被引用数 25 以上 × Abstract あり、で絞り込んだ約 1,100 万件の論文メタデータを格納
  • 認証は AWS Cognito、有料プランは Stripe で課金連携

2023 年 3 月時点のスナップショット。

SANDBOX

/ CONTACT /

共同研究・委託開発のご依頼・ご相談、
その他ご不明な点がございましたらお気軽に
お問い合わせください。