よむ、つかう、まなぶ。
資料4 大杉満 国立健康危機管理研究機構糖尿病情報センター長 提出資料 (25 ページ)
出典
公開元URL | https://www8.cao.go.jp/iryou/studygloup/20251014/agenda.html |
出典情報 | 医療等情報の利活用の推進に関する検討会(第4回 10/14)《内閣府》 |
ページ画像
ダウンロードした画像を利用する際は「出典情報」を明記してください。
低解像度画像をダウンロード
プレーンテキスト
資料テキストはコンピュータによる自動処理で生成されており、完全に資料と一致しない場合があります。
テキストをコピーしてご利用いただく際は資料と付け合わせてご確認ください。
まだまだデータ解析が効率的でない
◆ 原因
⚫ HBaseからOracleに移行する際、
データが正規化されておらず解析には
膨大な時間が必要であった
◆ 対策
縦持ちデータ(欠損値あり)
[ ID 日付 項目1 項目2 項目3 ・・・]
IDと日付で区分され、データが縦に
積み重なる
⚫ H B a s e から正規化されたデータを出力
できるようにシステム改修を実施
⚫ 正規化された40ファイルのCSVを出力
◆ 結果
各施設
⚫ データ解析に
正規化
かかる時間を
短縮すること
に成功
CSV
CSV
CSV
収集Agent
MCDRS
解析用
DB
HBase
Oracle
解析に合わせて必要なデータを
多くの場合、横持ちデータ
[ 重複なしID 項目A 項目A日付・・・]
に変換する必要あり
*一定のノウハウが必要
25
◆ 原因
⚫ HBaseからOracleに移行する際、
データが正規化されておらず解析には
膨大な時間が必要であった
◆ 対策
縦持ちデータ(欠損値あり)
[ ID 日付 項目1 項目2 項目3 ・・・]
IDと日付で区分され、データが縦に
積み重なる
⚫ H B a s e から正規化されたデータを出力
できるようにシステム改修を実施
⚫ 正規化された40ファイルのCSVを出力
◆ 結果
各施設
⚫ データ解析に
正規化
かかる時間を
短縮すること
に成功
CSV
CSV
CSV
収集Agent
MCDRS
解析用
DB
HBase
Oracle
解析に合わせて必要なデータを
多くの場合、横持ちデータ
[ 重複なしID 項目A 項目A日付・・・]
に変換する必要あり
*一定のノウハウが必要
25