概要
世界には具体的なものと抽象的なものが存在します.
例えば「テーブル」や「ソファー」のように視覚や触覚で存在を確認することができるものは具体的であり,感情や愛のように感覚による存在の確認と離れたものは抽象的です.
また,名詞だけでなく,「蹴る」「食べる」「感じる」といった動詞にも抽象度を考えることができます.
抽象度は,人間の認知プロセスと関連し,これを用いた研究には大きな可能性があると考えています.
しかし,これまで,英語を対象に抽象度を付与したリソースは多数存在しましたが [1, 2, 3, 4],日本語語彙を対象にした大規模なリソースは存在しませんでした.
そこで,ソーシャル・コンピューティング研究室では,15,220語の日本語語彙について抽象度を付与したデータベースを構築し,公開しています(AWD-J core).
また,これをベースに,より大規模に抽象度の推定を行ったリソースも合わせて公開しています(AWD-J EX).

  • [1] Brysbaert, M., Warriner, A. B., & Kuperman, V. (2013). Concreteness ratings for 40 thousand generally known English word lemmas. Behavior Research Methods, 46(3), 904-911
  • [2] Coltheart, M. (1981). The MRC psycholinguistic database. The Quarterly Journal of Experimen- tal Psychology, 33, 497-505.
  • [3] K ̈oper, M., & im Walde, S. (2017). Improv- ing Verb Metaphor Detection by Propagating Abstractness to Words, Phrases and Individ- ual Senses. Proceedings of the 1st Workshop on Sense, Concept and Entity Representations and Their Applications, 24-30.
  • [4] Turney, P. D., Neuman, Y., Assaf, D., & Cohen, Y. (2011). Literal and metaphorical sense identi- fication through concrete and abstract context. Proceedings of the 2011 Conference on the Em- pirical Methods in Natural Language Processing, 2(2003), 680-690.

データ

 ■最新バージョン
 ・更新日:2019/03/01, AWD-J core, ファイルサイズ:883KB (15220語)
 ・更新日:2019/03/01, AWD-J EX, ファイルサイズ:18.5MB (437301語)

仕様

それぞれ以下を示しています. word 語, socre 抽象度(1=もっとも抽象的〜5=もっとも具体的), deviation, scoreの分散, POS 品詞.

ファイル内容
WORDSCOREDeviationPOS
東京都575.36909493名詞
日経新聞574.68092513名詞
巨大3.851.28315183名詞
代償3.7349.21864242名詞
妥当3.238.20792557名詞
安定334.07890676名詞

  • [5] 村山太一, 若宮翔子, 荒牧英治. (2018). WORD GINI: 使用頻度の偏りを捉える指標の提案とその応用,言語処理学会 第 24 回年次大会
AWD-J coreの構築手法

抽象度のアノテーションの手続きは,先行研究 [1] と同様にクラウドソーシングを用いて行いました. 応用上の観点から,本データベースては,高頻度な語彙に対し優先的に抽象度を付与しました. 頻度の集計には,Twitter に投稿されるつぶやきの頻度調査 [5] を使用し, 上位20,000 語の中から名詞,動詞,形容詞の品詞であった語彙 17,778語を対象としました. 品詞の判定は mecab-ipadic-NEologdを用いました. 1 回のクラウドソーシングにつき,50 名の調査協力者が 300の語彙について抽象度を付与しました. 300の語彙には,10 件の キャリブレータワードとし,29 件のコントロールワードを含まれています. キャリブレータワードとは,初めに抽象度の高い語彙から低い語彙を提示しておくことで調査協力者に抽象度の幅を理解してもらうために用いられる語彙です. 先行研究 [1] に倣い,「シャツ」,「無限」,「ガス」,「バッタ」,「結婚」,「蹴る」,「礼儀正しい」,「口笛」,「理論」,「砂糖」の 10 件を用いました.
また,複数回のクラウドソーシングを行うため各回でアノテーション基準が変化していないことを示すためコントロールワードを設定し,各回ランダムに配置しました.
抽象度は 1 (最も抽象的)から 5 (最も具体的)の 5 段階の整数値で評価を行いました. 調査協力者への抽象度の定義については次の教示を用いました.

教示内容
このタスクでは日本語の単語についての評価を行っていただきます.
単語には具体的な単語と抽象的な単語の2種類があります.
具体的な単語とは,五感の1つを使って直接経験できるような,実際に存在するものや行動を言い表す単語です.
したがって実物を指し示したり実際にやって見せることでその意味を説明することができます (例: 「甘い」を説明するときは砂糖を食べてもらう,「飛ぶ」を説明するときはジャンプしてみせる,「ソファー」を説明するときはソファーを指差すか,ソファーの画像 を見せることで説明できます).
抽象的な単語とは,直接は経験できないですが,ほかの単語によって説明できるため意味がわかるような単語です (例:「正義」の意味を示す簡単な方法はありませんが,その意味の一部分を含んでいる別の単語を用いて説明することはできます).
このタスクでは,提示された単語が具体的か抽象的かどうかを判断していただきます.
ただし,具体的な単語と抽象的な単語は明確に分かれるものではない上,単語を理解するための言語によっても異なりますので,それぞれの単語の意味がどれくらい具体的かを5段階で評価してください.
5点が最も具体的,1点が最も抽象的な単語です
多くの単語を対象としているため,1文字の単語なども登場します.
単語の意味があなたの経験上どれくらい具体的かを常に考えてください.
また,中には意味を知らない単語も登場する可能性がありますが,その際は「この単語を知らない」を選択してください.

上記のタスクの結果,15%以上の調査協力者が「この単語を知らない」を選択したものを除外し,残りをデータベースに登録しました. 内容の内訳は、名詞 12,872 語,動詞 1,971 語,形容詞 377 語 です.
なお,英語にはない現象として日本語では ‘iPhone’,‘Wii’ などの英字を用いた単語も使用されることが一般的である単語も全て小文字に統一して登録されていますが,クラウドソーシング時には,適宜必要な箇所を大文字に直して行っています.

データ収集は,2018 年 4 月 23 日から 2018 年 7 月 1 日の期間にYahoo!クラウドソーシングを用いて行いました. 3450 名の調査協力者が参加しました(1回の収集にかかる金額は 1,080 円であり,計 69 回の収集により 74,520 円を使用しました).

AWD-J EXの構築手法

AWD-J coreに登録されている語彙は15,220語と日常生活で用いるには十分な量の語彙に対して抽象度の付与を行いましたが,すべてを網羅しているわけではありません. そこで,先行研究 [3] の手法により,学習済み単語分散表現(http://www.cl.ecei.tohoku.ac.jp/ m-suzuki/jawiki vector/ )を入力とし,抽象度の値を出力するニューラルネットワークを AWD-J 全体を学習データとして構築することで,AWD-J coreに収載されていない語についても抽象度を自動推定しました. AWD-J の 80%を学習データとして残りの 20%について抽象度の予測を行い,実際の値との相関を調べた結果,相関係数 r=0.66 と強い正の相関を得ています. AWD-J EXは,437,300 語であり,うち名詞 414,218語,動詞19,861 語,形容詞 3,221 語です.

謝辞

本データベースは新学術領域研究「脳・生活・人生からの統合的理解にもとづく 思春期からの主体価値発展学(Evolving Personalized Value through Adolescence:integration of brain, real-world, and life)」 総括班 JSPS科研費 JP16H06395,D01班 JSPS科研費 JP16H06399 のサポートを得て構築されています.

プライバシーポリシー

奈良先端科学技術大学院大学ソーシャル・コンピューティング研究室(以下,本研究室)が提供する成果物のプライバシーポリシーを定めます. 使用される方は,本規約を熟読し,内容をご理解いただいた後に,使用を開始していただくようお願いいたします.

免責事項

成果物は,可能な限り細心の注意を払って開発しました. しかし,完全な信頼性や堅牢性を保証しているわけではありません. 結果的に本データを使用して何らかの問題が発生した場合, 提供元である本研究室は一切の責任を負いかねます. ご使用になる場合には自己責任でご活用いただくようお願いいたします.