日本語病名抽出システム

日本語の医療文章を解析し病名を抽出

これまで多くの日本語形態素解析器が開発されてきましたが, 医学文章の解析においては,十分な精度が出ていませんでした.この理由の1つは,従来の形態素解析は,新聞などの汎用的な文章を想定し,特に医療に特化していないことにあります.また,形態素という単位が,もっぱら抽出したい対象である薬品名や病名よりも小さく,いわゆる,細切れになってしまった医学用語の扱いが問題となっていました.そもそも,多くの専門用語は複合名詞であり,形態素解析のみで用語を抽出することは,無理な処理です.
このような問題を解決するために,MedEX/J は,形態素ではなく,病名用語抽出に特化しました.また,後処理として,ICD10 への標準化,事実性判定など,臨床的に重要な処理も組み込んであります.従来,系列ラベリングによる用語抽出は,形態素解析の後処理として実装されることが多かったのですが,MedEX/J では,これを融合させ,単体で動作するように開発しました.