COVID-19(コロナウィルス )に関係するツイートかどうかをクラウドソーシングにより分析し,分析結果を公開しています.
データのダウンロード
データはCSVファイルで圧縮されています.ツイートの本文は含まれていません. 2020年1月ごろから6月ごろのツイートを対象にしています.
データ内容
53,640 件のツイートの分析が行われています.5名〜10名の作業者により評価を行い,多数決を行った結果です.対象となるツイートは,「COVID」もしくは「コロナ」を含むツイートです.ニコニコ動画について(niCOVIDeo)や,コロナビール についてなど,COVID-19に関係しないツイートも含まれます.
データの構造
- 1列目: ツイートの ID です.Twitter API などを利用して取得を行ってください.このサイトでは著作権などの理由により,ツイート本体は配布していません.
- 2列目: 選択結果です.次のような意味を持ちます
- 63 は一般事実:ニュースなど,一般的に公表されている情報
- 64 は個人事実:個人的なニュース.たとえば隣の家の○○さんがコロナに感染したらしい,など,ニュースになっていない情報.
- 65 は意見・感想
- 66 は関係あるかどうか判定困難(67関係無しは確定しているが,63,64,65を判別できない)
- 67 は関係無し
- 68 は事実のうち一般事実・個人事実・感想かを判定困難(63〜65, 67を判別できないので関係無しかもしれない)
事実と感想が含まれているツイートの場合は,感想となる場合が多いです.たとえば,「給付金が給付されたが私のところには来ないのは許せない」というツイートがあったとき,給付金が給付されないというのは個人事実に相当しますが,それに対する意見・感想として「許せない」と書かれているので,この場合は意見・感想(65) になります.
ライセンス
- CC-BY-ND 4.0に準拠します.
- 商用を含むどのような目的でも,このデータを利用することができます.
- 再配布は可能です.ただし,再配布の際にデータ内容に変更を加えてはいけません.また,配布元のページ(このページ)のURLなどを明記してください.
- 論文などで公表していただく場合には,謝辞もしくは参考文献,脚注などで触れてもらえると助かります.ただし,必須ではありません.
- 研究で利用された場合,論文情報を ysuzuki at gifu-u.ac.jp まで頂けましたら本ページに掲載いたします.ただし,必須ではありません.
引用について
このデータに関係する論文はまだ公開されていません.「鈴木 優: COVID-19 日本語 Twitter データセット
データ構築について
このデータを作成するにあたり,大川情報通信基金研究助成 を活用しました.感謝いたします.
参考
データ作成者が日本語BERT訓練済みモデル を用いて分類を行ったところ,10交差検定で Accuracy 0.668,F1-score 0.826 という結果が出ました.
連絡先
ysuzuki at gifu-u.ac.jp