COVID-19(コロナウィルス )に関係するツイートかどうかをクラウドソーシングにより分析し,分析結果を公開しています.

データのダウンロード

データはこちらです.

データはCSVファイルで圧縮されています.ツイートの本文は含まれていません. 2020年1月ごろから6月ごろのツイートを対象にしています.

データ内容

53,640 件のツイートの分析が行われています.5名〜10名の作業者により評価を行い,多数決を行った結果です.対象となるツイートは,「COVID」もしくは「コロナ」を含むツイートです.ニコニコ動画について(niCOVIDeo)や,コロナビール についてなど,COVID-19に関係しないツイートも含まれます.

データの構造

  • 1列目: ツイートの ID です.Twitter API などを利用して取得を行ってください.このサイトでは著作権などの理由により,ツイート本体は配布していません.
  • 2列目: 選択結果です.次のような意味を持ちます
  • 63 は一般事実:ニュースなど,一般的に公表されている情報
  • 64 は個人事実:個人的なニュース.たとえば隣の家の○○さんがコロナに感染したらしい,など,ニュースになっていない情報.
  • 65 は意見・感想
  • 66 は関係あるかどうか判定困難(67関係無しは確定しているが,63,64,65を判別できない)
  • 67 は関係無し
  • 68 は事実のうち一般事実・個人事実・感想かを判定困難(63〜65, 67を判別できないので関係無しかもしれない)

事実と感想が含まれているツイートの場合は,感想となる場合が多いです.たとえば,「給付金が給付されたが私のところには来ないのは許せない」というツイートがあったとき,給付金が給付されないというのは個人事実に相当しますが,それに対する意見・感想として「許せない」と書かれているので,この場合は意見・感想(65) になります.

ライセンス

  • CC-BY-ND 4.0に準拠します.
  • 商用を含むどのような目的でも,このデータを利用することができます.
  • 再配布は可能です.ただし,再配布の際にデータ内容に変更を加えてはいけません.また,配布元のページ(このページ)のURLなどを明記してください.
  • 論文などで公表していただく場合には,謝辞もしくは参考文献,脚注などで触れてもらえると助かります.ただし,必須ではありません.
  • 研究で利用された場合,論文情報を ysuzuki at gifu-u.ac.jp まで頂けましたら本ページに掲載いたします.ただし,必須ではありません.

引用について

このデータに関係する論文はまだ公開されていません.「鈴木 優: COVID-19 日本語 Twitter データセット

データ構築について

このデータを作成するにあたり,大川情報通信基金研究助成 を活用しました.感謝いたします.

参考

データ作成者が日本語BERT訓練済みモデル を用いて分類を行ったところ,10交差検定で Accuracy 0.668,F1-score 0.826 という結果が出ました.

連絡先

ysuzuki at gifu-u.ac.jp