■最新バージョン
・更新日:2018/03/10, データ:WORD GINI (日本語), ファイルサイズ:6.2MB
・更新日:2018/03/10, データ:WORD GINI (英語), ファイルサイズ:9.5MB
■過去バージョン
・なし
WORD GINIは,経済指標の1つであるジニ係数を語に対して応用して考案された指標で,この指標をSNSデータ(Twitter)を利用し算出したリストの作成を行いました.
この値は,どのユーザにも満遍なく利用されている語に対して低い値が付与され,一方専門用語などの一部のユーザにのみ利用されている語に対して高い値が付与されています.
ただし,日本語と英語は異なるデータ元から作成されているため,日本語と英語との比較などの用途にはご利用できません.ご注意ください
算出方法や元データに関する情報は以下の資料をご参照ください.
村山太一, 若宮翔子, 荒牧英治. WORD GINI: 語の使用の偏りを捉える指標の提案とその応用. 言語処理学会第24 回年次大会, pp. 698–701, 2018.