■最新バージョン
・更新日:2019/04/04, AWD-J core, ファイルサイズ:603KB (15220語)
・更新日:2019/04/04, AWD-J EX, ファイルサイズ:12.2MB (437299語)
抽象度を付与する手続きには,先行研究 [1] と同様にクラウドソーシングを用いました. 応用上の観点から,日本語抽象度辞書では,日常でよく使用される語彙に対し優先的に抽象度を付与しました. 使用頻度の集計には,Twitter に投稿されるつぶやきの頻度調査 [5] を使用し, 上位 20,000 語の中から名詞,動詞,形容詞の品詞であった 17,778 語を対象としました. 品詞の判定は mecab-ipadic-NEologd を用いました. 1 回のクラウドソーシングにつき,50 名の調査協力者が 300 語について抽象度を付与しました. 300 語の中には,10 件のキャリブレータワードとし,29 件のコントロールワードが含まれています. キャリブレータワードとは,はじめに抽象度の高い語彙から低い語彙を提示しておくことで調査協力者に抽象度の幅を理解してもらうために用いられる語彙です. 先行研究 [1] に倣い,「シャツ」,「無限」,「ガス」,「バッタ」,「結婚」,「蹴る」,「礼儀正しい」,「口笛」,「理論」,「砂糖」の 10 件を用いました.
また,複数回のクラウドソーシングを行うので,各回でアノテーション基準が変化していないことを示すためコントロールワードを設定し,各回ランダムに配置しました.
抽象度は 1 (最も具体的) から 5 (最も抽象的) の 5 段階の整数値で評価を行いました. 調査協力者への抽象度の定義については次の教示を用いました.
教示内容 |
---|
このタスクでは日本語の単語についての評価を行っていただきます. 単語には具体的な単語と抽象的な単語の2種類があります. 具体的な単語とは,五感の1つを使って直接経験できるような,実際に存在するものや行動を言い表す単語です. したがって実物を指し示したり実際にやって見せることでその意味を説明することができます (例: 「甘い」を説明するときは砂糖を食べてもらう,「飛ぶ」を説明するときはジャンプしてみせる,「ソファー」を説明するときはソファーを指差すか,ソファーの画像 を見せることで説明できます). 抽象的な単語とは,直接は経験できないですが,ほかの単語によって説明できるため意味がわかるような単語です (例:「正義」の意味を示す簡単な方法はありませんが,その意味の一部分を含んでいる別の単語を用いて説明することはできます). このタスクでは,提示された単語が具体的か抽象的かどうかを判断していただきます. ただし,具体的な単語と抽象的な単語は明確に分かれるものではない上,単語を理解するための言語によっても異なりますので,それぞれの単語の意味がどれくらい具体的かを5段階で評価してください. 5点が最も具体的,1点が最も抽象的な単語です 多くの単語を対象としているため,1文字の単語なども登場します. 単語の意味があなたの経験上どれくらい具体的かを常に考えてください. また,中には意味を知らない単語も登場する可能性がありますが,その際は「この単語を知らない」を選択してください. |
日本語抽象度辞書に登録されている語彙は,15,220 語と日常生活で用いるには十分な量の語彙に対して抽象度の付与を行いましたが,すべてを網羅しているわけではありません. そこで,先行研究 [3] の手法により,学習済み単語分散表現(http://www.cl.ecei.tohoku.ac.jp/~m-suzuki/jawiki_vector/ )を入力とし,AWD-J 全体を学習データとして抽象度の値を出力するニューラルネットワークを構築することで,日本語抽象度辞書に収載されていない語についても抽象度を自動推定しました. AWD-J の 80% を学習データとして残りの 20% について抽象度の予測を行い,実際の値との相関を調べた結果,相関係数 r=0.66 と強い正の相関を得ています. AWD-J EXは,437,300 語を収録しており,その内訳は,名詞 414,218語,動詞 19,861 語,形容詞 3,221 語です.