これまで多くの日本語形態素解析器が開発されてきましたが,
医学文章の解析においては,十分な精度が出ていませんでした.
この理由の1つは,従来の形態素解析は,新聞などの汎用的な文章を想定し,
特に医療に特化していないことにあります.
また,形態素という単位が,もっぱら抽出したい対象である薬品名や病名よりも小さく,
いわゆる,細切れになってしまった医学用語の扱いが問題となっていました.
そもそも,多くの専門用語は複合名詞であり,形態素解析のみで用語を抽出することは,無理な処理です.
このような問題を解決するために,MedEX/Jは,形態素ではなく,病名用語抽出に特化しました.
また,後処理として,ICD10への標準化,事実性判定など,臨床的に重要な処理も組み込んであります.
従来,系列ラベリングによる用語抽出は,形態素解析の後処理として,実装されることが多かったですが,
MedEX/Jでは,これを融合させ,単体で動作するように開発しました.
本システムは,日本語の医療文章を解析し病名を抽出します.
入力例(sample.txt):
% cat sample.txt(Windows環境の場合:type sample.txt) 初診時は間質性肺炎は認められなかった. 再検査にて間質性肺炎が認められた.
解析結果例(辞書ファイルとして万病辞書を使用した場合):
% MednlpParser < sample.txt 初診時は<N value="間質性肺炎;icd=J849/lv=S/freq=13800;間質性肺炎">間質性肺炎</N>は認められなかった. 再検査にて<P value="間質性肺炎;icd=J849/lv=S/freq=13800;間質性肺炎">間質性肺炎</P>が認められた.
MedEX/J (version 1.00)
動作環境:Windows, Unix系システム,もしくはMacOSX
例として,Windows環境での使用方法について下記に説明します.
C:\Users\USERNAME\Documents\mednlp-win10\mednlp>MednlpParser -d MANBYO_v5dic.txt < sample.txt > output.txt
なお,MedEX/Jは,内部的な文字コードはUTF-8で処理しています.そのため,Shift-JISがデフォルト設定であるWindows環境では表示の際に文字化けが 発生する可能性があります.上記で説明した例のように,実行結果をファイルに保存することで,これを防ぐことができます.
`-h` でコマンドラインオプションとデフォルト値が確認できます.
$ $DIR_TO_MEDNLP/MednlpParser -h Usage: MednlpParser [ -o | --option ] [ -p VALUE | --parameter VALUE ] [ operands ] -d --dictionary [STRING] The dictionary file. Default is './DIC.txt' (included in the program). -h --help Displays Help information about arguments when set -i --input [STRING] Read source text from specified file. Default is from standard input. -m --model [STRING] The model file. Default is './MODEL' (included in the program). -n --negative-tag [STRING] Set negative tag name. Default is 'N'. -o --output [STRING] Write the result to specified file. Default is to standard output. -p --positive-tag [STRING] Set positive tag name. Default is 'P'.
MedEX/J の詳細については,下記の論文を参照ください.
本研究にて構築した医療コーパスの詳細については,下記の技術資料を参照ください.
荒牧英治,若宮翔子,矢野憲,永井宥之,岡久太郎,伊藤薫:病名アノテーションが付与された医療テキスト・コーパスの構築,自然言語処理「言語処理の応用システム」特集号(技術資料),25(1), 2018 [PDF]
本研究は,部分的に以下のサポートを受けています.
厚生労働科学研究費補助金(臨床研究等ICT基盤構築研究事業), 2016年〜2017年, 「カルテ情報の自動構造化システムと疾患数理モデルの逐次的構築,及び,自動構造化機能を有した入力機構の開発」(荒牧班)