Word Gini
Twitterを用いて算出した語の標準性に関するデータ
語の標準性を考えて標準語彙を決定することは,語学教育などに需要があることから,これまで言語処理の分野の研究で盛んに行われてきました.しかし,標準語彙は一般的な辞書のように専門家による判定がほとんどでした.時代の移り変わりの早い現代では,新しい概念やそれにまつわる新語が多く生まれ 専門家による標準語彙の判定では追いつかないこともあります.また,標準語彙同士の比較や,標準性の程度を考える際には標準語彙だけ与えられても不便なことがあります.
そこで, SNSのユーザによる利用頻度を用いた偏りに着目することで,語単体の標準性としての値を各語に付与し,新語に対応できる計算方法で,語同士の比較ができるように標準性の数値化を行いました.ソーシャル・コンピューティング研究室ではこのデータを”WORD GINI”と名付けました. 各種データも公開していますので, ご自由に使用ください.