概要
医療文書から病名を抽出する処理は,これまで医療言語処理分野の研究では盛んに行われてきました.病名抽出にはICDのような標準規格で規定された病名を用いることがほとんどでした.しかし,実際の医療現場では,正式名称ではなく略記や英語名を用いることが少なくありません.そのため,定型的な病名コードだけでは症状や病名に関する情報をすべて抽出したいといった要望には応えることができません.
そこで,ソーシャル・コンピューティング研究室では,医療従事者が記載した電子カルテや退院サマリから,症状や病名に関連する語を広く抽出したデータを作成し,"万病辞書"と名付けました. 本サイトでは,万病辞書ならびに関連データを公開していますので,ご自由にご利用ください.
なお,英語での紹介ページは, English page をご覧ください.

ダウンロード

万病辞書データ
  • MANBYO_201806(更新日:2018/06/08,ダウンロードファイル:zip(辞書ファイル:xlsx),ファイルサイズ:3.4MB(辞書ファイル:3.1MB))
  • MANBYO_201711(更新日:2017/11/17,ダウンロードファイル:zip(辞書ファイル:xlsx),ファイルサイズ:1.6MB)
  • MANBYO_201708(更新日:2017/08/23,ダウンロードファイル:xlsx,ファイルサイズ:9.34MB)
Mecab用辞書データ
万病辞書データを形態素解析器MeCab で利用できる形式へ変換した辞書です.

仕様
万病辞書の抜粋
オリジナルデータ

万病辞書 (MANBYO_201806) の構成
詳細はデータに含まれるREADMEをご覧ください.
カラム名説明
出現形 電子カルテや退院サマリから抽出された症状・病名
(例:11β−水酸化酵素欠損症, 18常染色体異常等)
ICD10コード 出現形に対応する,ICD10対応標準病名マスター (*1) に記載されているICD10コード
標準病名 出現形に対応する,ICD10対応標準病名マスター (*1) に記載されているICD10対応標準病名
MedDRAコード ICH国際医薬用語集 (Medical Dictionary for Regulatory Activities) MedDRA の日本語版 MedDRA/J のコード
信頼度LEVEL S: ICD10対応標準病名マスター (*1) に記載されている症状・病名(約25,000件)
A: 2名以上の医療従事者が同じコードを付与した症状・病名
B: 2名以上の医療従事者が相談してコードを付与した症状・病名
C: 1名の医療従事者がコードを付与した症状・病名
D: 計算機が自動的に割り当てた症状・病名
しゅつげんけい;icd=ICDコード;meddra=meddraコード/lv=信頼度LEVEL/freq=頻度LEVEL;標準病名 ICD10コードや標準病名などから作成した複合文字列のラベル

*1: ICD10対応標準病名マスター (V4.04 2018年4月1日改訂) を利用


信頼度レベルごとの件数(MANBYO_201806)

データラベルは「信頼度LEVEL; 件数; パーセンテージ」を表しています.

信頼度レベルごとの件数

オンラインデモ

万病辞書内のデータをオンラインで閲覧することができます. 下記のフォームに症状や病名を入力し,検索ボタンを押してください.




よみがなの自動付与

病名や症状には,よみがなを付与するとさらに利便性が高まります. ソーシャル・コンピューティング研究室では,万病辞書の病名や症状に自動的によみがなを付与する「万病辞書 よみがなくん」を開発し,公開しています.

特徴

万病辞書は,厚生労働科学研究費(カルテ情報の自動構造化システムと疾患数理モデルの逐次的構築及び自動構造化機能を有した入力機構の開発)の補助により作成されました. カルテ文章調査の結果,延べ45万症状表現(約6.2万種類)が得られました.そのうち28.3%(約1.7万種類)が標準病名のみではカバーされていないことが分かりました.
このうち,特定の医療機関における頻度が高い病名から順に,医療従事者3名がコーディングを行い,意見が食い違ったものはその曖昧性も残したまま,辞書リソース化しました. このように,万病辞書は,ICD10対応標準病名マスターの病名をすべて含み,かつ,それだけでは補うことが難しい医療現場で得られた症状や病名を備えています.

辞書

約13万もの症状・病名に関する語彙を蓄積
  • 協力医療機関で得られたテキスト情報から,約13万種類の症状・病名に関する語を抽出しました.
ICD10対応標準病名との対応付け
  • 症状・病名に関する語に対して, その語に最も近いICD10コードならびにICD10対応標準病名を付与しました.
病名・症状とICD10

応用例

電子カルテからの病名情報を用いた研究
  • 電子カルテ病名 -> ICD10コード -> 万病辞書という手順で病名情報の紐付けが可能です.
  • 万病辞書を用いて,電子カルテから潜在的な病名・症状を抽出できる可能性があります.
レセプトからの病名抽出に関する研究
  • 診療報酬請求コード(レセプト病名)-> ICD10コード -> 万病辞書という手順で病名情報の紐付けが可能です.
  • 実際の診療に利用されているレセプト病名から,患者の主訴や症状を検索するような試みが可能です.
医療従事者に対する診断支援,教育システム構築に関する研究
  • 多くの症状から病名診断につなげる診断支援システムや医療従事者に対する教育システム等の構築が考えられます.

MeCab用辞書の利用手順

1. 形態素解析器MeCab のインストール
  • 形態素解析器Mecab をお使いのマシンにインストールしてください(参考:Mecab公式サイト).
    なお,Windows環境をお使いの場合は,必ず「SHIFT-JIS」を選択してください.  
  • Mecabが存在するディレクトリを環境変数のpathに追加してください.
2. 辞書データの読み込み
  • 辞書データ(.dicファイル)をCドライブの直下等に配置してください.  
  • コマンドプロンプト上で,辞書データを配置したディレクトリへ移動し,"mecab -u 辞書ファイル名" と入力してください.ユーザ辞書として辞書ファイルを読み込んで,Mecab が立ち上がります.
3. 形態素解析の実行

  症状や病名を含むテキストを入力すると,万病辞書を適用した形態素解析結果が表示されます.
  例えば,「私は糖尿病になった後,悪化して心不全になり入院しました」というテキストをMANBYO_201806_Dic-utf8.dicにより解析すると,下記のように「糖尿病」と「心不全」の解析結果に万病辞書の情報が付与されます.

解析結果

      例えば,「糖尿病」の解析結果の見方は下記の通りです.

  • とうにょうびょう;icd=E14;meddra=糖尿病/lv=S/freq=高頻度;糖尿病:<しゅつげんけい;icd=ICDコード;meddra=meddraコード/lv=信頼度LEVEL/freq=頻度LEVEL;標準病名>ラベル
  • とうにょうびょう:<しゅつげんけい(読み仮名)>
  • E14:<ICD10コード>
  • 糖尿病:<MedDRAコード>
  • 61572:<特定の病院における頻度>

謝辞

本研究は,厚生労働科学研究費補助金,2016年〜2018年,「カルテ情報の自動構造化システムと疾患数理モデルの逐次的構築,及び,自動構造化機能を有した入力機構の開発」(研究代表者:荒牧英治,研究分担者:若宮翔子),および,国立研究開発法人日本医療研究開発機構 (AMED),2016年〜2018年,医薬品等規制調和・評価研究事業「患者の自覚症状により副作用の早期発見を可能とする方策に関する研究」(研究代表者:望月眞弓,研究分担者:荒牧英治,若宮翔子)により実施されました.

プライバシーポリシー

奈良先端科学技術大学院大学 ソーシャル・コンピューティング研究室(以下,本研究室)が提供する成果物のプライバシーポリシーを定めます. 使用される方は,本規約を熟読し,内容をご理解いただいた後に,使用を開始していただくようお願いいたします.

免責事項

成果物は,可能な限り細心の注意を払って開発しました. しかし,完全な信頼性や堅牢性を保証しているわけではありません. 結果的に本アプリ及びデータを使用して何らかの問題が発生した場合,提供元である本研究室は一切の責任を負いかねます. ご使用になる場合には自己責任でご活用いただくようお願いいたします.

クリエイティブ・コモンズ・ライセンス
この成果物は クリエイティブ・コモンズ 表示 4.0 国際 ライセンスの下に提供されています。