概要
医療文書から病名を抽出する処理は,これまで医療言語処理分野の研究では盛んに行われてきました.病名抽出にはICDのような標準規格で規定された病名を用いることがほとんどでした.しかし,実際の医療現場では,正式名称ではなく略記や英語名を用いることが少なくありません.そのため,定型的な病名コードだけでは症状や病名に関する情報をすべて抽出したいといった要望には応えることができません.
そこで,ソーシャル・コンピューティング研究室では,医療従事者が記載した電子カルテや退院サマリから,症状や病名に関連する語を広く抽出したデータを作成し,"万病辞書"と名付けました. 本サイトでは,万病辞書ならびに関連データを公開していますので,ご自由にご利用ください.
なお,英語での紹介ページは, English page をご覧ください.

アンケート

万病辞書について,ご意見・ご要望がございましたら,下記よりご回答ください.
お答えいただいた内容は,今後の万病辞書の改善のための貴重な資料として使わせていただきます.

ダウンロード

万病辞書データ
<正式版>
  • MANBYO_201907 (更新日:2019/07/04.ダウンロードファイル:zip (14.5MB)(辞書ファイル:xlsx (15.6MB),README: md, pdf))
  • MANBYO_201905 (更新日:2019/05/27.ダウンロードファイル:zip (14.6MB)(辞書ファイル:xlsx (15.6MB),README: md, pdf))
  • MANBYO_201810 (更新日:2018/10/12.ダウンロードファイル:zip (4.5MB)(辞書ファイル:xlsx (4.5MB),README: md, pdf))
  • MANBYO_201806 (更新日:2018/06/08.ダウンロードファイル:zip (3.4MB)(辞書ファイル:xlsx (3.1MB),README: md))
<開発版>
  • MANBYO_20181204 (更新日:2018/12/04.ダウンロードファイル:zip (17.7MB)(辞書ファイル:xlsx (19.4MB),README: pdf))
Mecab用辞書データ
万病辞書データを形態素解析器MeCab で利用できる形式へ変換した辞書です.
ドキュメント

仕様
万病辞書の抜粋
オリジナルデータ

万病辞書 (MANBYO_201905以降) の構成
詳細はデータに含まれるREADMEをご覧ください.
カラム名説明
出現形 電子カルテや退院サマリから抽出された症状・病名
(例:11β−水酸化酵素欠損症, 18常染色体異常等)
ICD10コード 出現形に対応する,ICD10対応標準病名マスター (*1) に記載されているICD10コード.ただし,次の場合には -1を付与:1) 4つ以上のコードが存在する場合(3つまでは全て付与),2) 断⽚的な情報のみで判断が困難な場合,3) コードが存在していない場合
標準病名 出現形に対応する,ICD10対応標準病名マスター (*1) に記載されているICD10対応標準病名
信頼度LEVEL S: ICD10対応標準病名マスター (*1) に記載されている症状・病名(約25,000件)
A: 2名以上の医療従事者が同じコードを付与した症状・病名
B: 2名以上の医療従事者が相談してコードを付与した症状・病名
C: 1名の医療従事者がコードを付与した症状・病名
D: 計算機が自動的に割り当てた症状・病名
E: 新規に追加された症状・病名のうち,万病辞書に収載済み病名のICD コードと標準病名を元に,計算機が自動的に割り当てた症状・病名
F: 新規に追加された症状・病名のうち,万病辞書に収載済み病名のICD コードと標準病名を元に,計算機が自動的に割り当てられなかった症状・病名
しゅつげんけい;icd=ICD10コード;lv=信頼度LEVEL/freq=頻度LEVEL;標準病名 ICD10コードや標準病名などから作成した複合文字列のラベル

*1: ICD10対応標準病名マスター (V4.04 2018年4月1日改訂) を利用


信頼度レベルごとの件数(MANBYO_201907)

データラベルは「信頼度LEVEL; 件数; パーセンテージ」を表しています.

信頼度レベルごとの件数

オンラインデモ

万病辞書内のデータをオンラインで閲覧することができます.下記のフォームに症状や病名を入力し,検索ボタンを押してください.




万病検索

万病辞書内のデータを検索することができるWebサービスです.

万病検索


よみがなの自動付与

病名や症状によみがなを付与するとさらに利便性が高まるため, 万病辞書内のデータに自動的によみがなを付与する 「万病辞書 よみがなくん」を開発しています.

特徴

万病辞書は,厚生労働科学研究費(カルテ情報の自動構造化システムと疾患数理モデルの逐次的構築及び自動構造化機能を有した入力機構の開発)の補助により作成されました. 予備調査では,電子カルテから得られた延べ45万症状表現(約6.2万種類)のうち,28.3%(約1.7万種類)が標準病名のみではカバーされていないことが分かりました.
このうち,特定の医療機関における頻度が高い病名から順に,医療従事者3名がコーディングを行い,意見が食い違ったものはその曖昧性も残したまま,辞書リソース化しました. このように,万病辞書は,ICD10対応標準病名マスターの病名をすべて含み,かつ,それだけでは補うことが難しい医療現場で得られた症状や病名を備えています.

辞書

約36.3万もの症状・病名に関する語彙を蓄積
  • 協力医療機関で得られたテキスト情報から,約160万以上の症状・病名に関する語を抽出しました.そのうち,特に頻出する約36.3万の症状・病名に関する語を抽出し,既存辞書である ICD10対応標準病名マスター (V4.04 2018年4月1日改訂) に含まれている語とマージしたものを収載しています.
ICD10対応標準病名との対応付け
  • 症状・病名に関する語に対して, その語に最も近いICD10コードならびにICD10対応標準病名を付与しました.
病名・症状とICD10

応用例

電子カルテからの病名情報を用いた研究
  • 電子カルテ病名 -> ICD10コード -> 万病辞書という手順で病名情報の紐付けが可能です.
  • 万病辞書を用いて,電子カルテから潜在的な病名・症状を抽出できる可能性があります.
レセプトからの病名抽出に関する研究
  • 診療報酬請求コード(レセプト病名)-> ICD10コード -> 万病辞書という手順で病名情報の紐付けが可能です.
  • 実際の診療に利用されているレセプト病名から,患者の主訴や症状を検索するような試みが可能です.
医療従事者に対する診断支援,教育システム構築に関する研究
  • 多くの症状から病名診断につなげる診断支援システムや医療従事者に対する教育システム等の構築が考えられます.

MeCab用辞書の利用手順

1. 形態素解析器MeCab のインストール(参考:Mecab公式サイト本研究室でまとめた手順
  • 形態素解析器Mecab をお使いのマシンにインストールしてください.
    なお,Windows環境をお使いの場合は,必ず「SHIFT-JIS」を選択してください.  
  • Mecabが存在するディレクトリを環境変数のpathに追加してください.
2. 辞書データの読み込み

辞書データ(.dicファイル)をCドライブの直下等に配置してください.

3. 形態素解析の実行

コマンドプロンプト上で,辞書データを配置したディレクトリへ移動し,"mecab -u 辞書ファイル名" と入力してください.ユーザ辞書として辞書ファイルを読み込んで,Mecab が立ち上がります. 症状や病名を含むテキストを入力すると,万病辞書を適用した形態素解析結果が表示されます.

例えば,「今朝から片頭痛があり、胃がむかむかする。」というテキストを辞書データを読み込んで解析("mecab -u MANBYO_201905_Dic-sjis.dic" を実行)すると ,下記のように「片頭痛」と「胃がむかむかする」の解析結果に万病辞書の情報が付与されます.

万病辞書を用いた解析結果

「片頭痛」の解析結果の見方は下記の通りです.

  • へんずつう;icd=G439;lv=S/freq=高頻度;片頭痛:<しゅつげんけい;icd=ICDコード;lv=信頼度LEVEL/freq=頻度LEVEL;標準病名>ラベル
  • へんずつう:<しゅつげんけい(読み)>
  • へんずつう:<しゅつげんけい(発音)>
  • 18403:<特定の病院における頻度>

謝辞

「万病辞書」は主に厚生労働科学研究費補助金「カルテ情報の自動構造化システムと疾患数理モデルの逐次的構築,及び,自動構造化機能を有した入力機構の開発」(研究代表者:荒牧英治)のサポートにて,奈良先端科学技術大学院大学と東京大学医学部附属病院により構築されました.

プライバシーポリシー

奈良先端科学技術大学院大学 ソーシャル・コンピューティング研究室(以下,本研究室)が提供する成果物のプライバシーポリシーを定めます. 使用される方は,本規約を熟読し,内容をご理解いただいた後に,使用を開始していただくようお願いいたします.

免責事項

成果物は,可能な限り細心の注意を払って開発しました. しかし,完全な信頼性や堅牢性を保証しているわけではありません. 結果的に本アプリ及びデータを使用して何らかの問題が発生した場合,提供元である本研究室は一切の責任を負いかねます. ご使用になる場合には自己責任でご活用いただくようお願いいたします.

クリエイティブ・コモンズ・ライセンス
この成果物は クリエイティブ・コモンズ 表示 4.0 国際 ライセンスの下に提供されています。