پیشپردازش دادههای پزشکی و زیستی – چرا و چگونه؟

در مقاله قبلی از سری مقالات آشنایی با هوش مصنوعی برای بیولوژیستها و پزشکان، در مورد مفهوم مدیریت دادههای زیستی و پزشکی صحبت شد. اما صرفا مدیریت و نگهداری دادهها به تنهایی کافی نیست. زمانی که قصد داریم از یک دیتاست زیستی و یا پزشکی برای پروژههای هوش مصنوعی استفاده کنیم، لازم است مرحلهای حیاتی به نام پیشپردازش داده یا Data Preprocessing صورت گیرد. این فرآیند شامل تمیزکردن، ساماندهی، تبدیل و استانداردسازی دادههاست تا در نهایت، مدلهای هوش مصنوعی بتوانند خروجیهای قابل اعتماد و معتبری ارائه دهند. در این مقاله به بررسی پیشپردازش داده های پزشکی و زیستی خواهیم پرداخت.
چرا پیشپردازش دادههای پزشکی مهم است؟
-
حجم و تنوع بالای داده
دادههای پزشکی میتوانند شامل تصاویر رادیولوژی، پروندههای سلامت الکترونیک، نتایج آزمایشگاهی و دادههای ژنتیکی باشند. هرکدام از این دادهها ساختار و فرمت متفاوتی دارند و بدون پیشپردازش دادههای پزشکی، ادغام یا تحلیل یکپارچه آنها دشوار خواهد بود. -
حساسیت بالای تصمیمگیری بالینی
خروجی الگوریتمهای هوش مصنوعی در پزشکی اغلب روی تصمیمهای بالینی تأثیر میگذارد؛ برای مثال، تشخیص وجود تومور در یک تصویر سیتیاسکن یا پیشبینی احتمال حمله قلبی بر اساس سوابق بیمار. در چنین مواردی، حتی خطاهای کوچک در مرحله پردازش داده میتواند پیامدهای جدی داشته باشد. -
وجود نویز (Noise) و دادههای گمشده (Missing Data)
دادههای جمعآوریشده از بیمارستانها و مراکز درمانی ممکن است حاوی مقدار زیادی نویز و مقادیر خالی باشند. اگر این موارد بهدرستی مدیریت نشوند، عملکرد مدلهای یادگیری ماشین کاهش مییابد. -
استانداردهای مختلف و پراکندگی دادهها
عدم پیروی از یک استاندارد یکپارچه برای ذخیره سوابق پزشکی، سبب میشود دادهها از منابع مختلف با روشهای متفاوت ذخیره و برچسبگذاری شوند. پیشپردازش میتواند به هماهنگکردن قالبها و استانداردسازی متغیرها کمک کند.
مراحل اصلی پیشپردازش دادههای پزشکی
۱٫ جمعآوری و سازماندهی اولیه
در نخستین گام، لازم است دادهها از منابع مختلف جمعآوری شوند. در ادامه، لازم است تغییرات و دستهبندیهای آغازین روی دادهها جهت تبدیل آنها به یک دیتاست قابل استفاده صورت پذیرد. با توجه به فرمت متفاوتی که هریک از دادههای زیستی و پزشکی دارند، لازم است مراحلی جهت تبدیل این دادهها به فرمت عددی و جدولی صورت پذیرد. اغلب در پروژههای ماشین لرنینگی، از جداولی حاوی متغیرها و لیبل نمونهها (در صورت موجود بودن)، استفاده میگردد. پس اگر داده مورد استفاده به شکل تصویر، متن و یا سایر فرمتهاست، لازم است این تبدیل کردن و تبدیل نمونهها به یک دیتاست واحد صورت پذیرد.
۲. پاکسازی دادهها (Data Cleaning)
در این مرحله، دادهها را از هر گونه نویز، خطا و نواقص احتمالی پالایش میکنیم تا مدلهای هوش مصنوعی به دادههایی تمیز و بامعنا دسترسی داشته باشند. یکی از مهمترین فعالیتهای این مرحله، شناسایی و مدیریت دادههای مفقود (Missing Values) است. برای مقادیر مفقود میتوانید از روشهایی نظیر جایگزینی با میانگین یا میانه، حذف ردیف یا تخمین مقداری مناسب استفاده کنید. همچنین شناسایی مقادیر ناهنجار (Outliers) که خارج از محدوده انتظارات قرار دارند، از اهمیت ویژهای برخوردار است؛ چراکه وجود دادههای پرت میتواند باعث انحراف مدل و کاهش دقت شود. علاوه بر این، باید به دادههای تکراری یا ناسازگار توجه داشته باشید و آنها را حذف یا اصلاح کنید. همه این اقدامات در نهایت باعث بهبود کیفیت مجموعه داده شده و از بروز خطا در مدل جلوگیری میکند.
۳. تبدیل و کدگذاری دادهها (Data Transformation & Encoding)
الگوریتمهای یادگیری ماشین با دادههای عددی کار میکنند. بنابراین، در صورتی که دادههای شما شامل دادههای طبقهای (Categorical) باشند، نیاز دارید این ویژگیها را به شکل عددی تبدیل کنید. روشهایی مانند Label Encoding یا One-Hot Encoding بسته به نوع داده و مسئله قابل استفاده هستند. همچنین مقیاسبندی (Scaling) و نرمالسازی (Normalization) دادهها نقش مهمی در افزایش دقت مدل دارد. تکنیکهای مختلفی جهت مقیاسبندی متغیرهای موجود در دیتاست وجود دارند.
۴. مهندسی ویژگی (Feature Engineering)
دیتاست مورد استفاده در پروژههای ماشین لرنینگی، اغلب به شکل جدولی است که ردیفهای آن نمونهها و ستونها متغیرها یا همان Feature ها هستند. مهندسی ویژگی هنر استخراج و ساخت متغیرها یا همان ویژگیهای جدید و سودمند از دادههای اولیه است. در بسیاری از مسائل، ویژگیهای خام ممکن است کافی نباشند یا نتوانند الگوهای نهفته در دادهها را بهخوبی نمایان کنند. ازاینرو، میتوانید با ترکیب ویژگیها، اعمال توابع ریاضی، یا تکنیکهای خاص در شرایط گوناگون، ویژگیهای جدیدی به مجموعه اضافه کنید. همچنین انتخاب ویژگیهای کلیدی از میان انبوهی از ویژگیهای بالقوه، از مراحل مهم است.
۵. تقسیمبندی دادهها (Data Splitting)
برای ارزیابی صحیح عملکرد مدل و اطمینان از توانایی تعمیم آن به دادههایی که تا کنون با آنها برخورد نداشته، لازم است مجموعه داده را به بخشهای گوناگونی تقسیم کنید. رایجترین شیوه این است که دادهها را به دو بخش اصلی «آموزش (Train)» و «تست (Test)» تقسیم کنید. با استفاده از دیتاست Train، کار آموزش مدل انجام میشود و با استفاده از دیتاست Test، کار ارزیابی مدل صورت میپذیرد.
توصیه میشود جهت جلوگیری از نشت داده، مرحله Feature Scaling بعد از مرحله Data Splitting صورت پذیرد.
نکات مهم برای موفقیت در پیشپردازش دادههای پزشکی
-
توجه به کیفیت داده
حتی اگر دادههایی با حجم بالا در اختیار داشته باشید، اگر کیفیت آنها پایین باشد (نویز زیاد، اطلاعات ناقص، برچسبهای اشتباه)، مدلهای هوش مصنوعی عملکرد خوبی نخواهند داشت. بنابراین اولویت اول، اطمینان از کیفیت داده است. -
مستندسازی (Documentation)
تمام مراحل و تصمیمهایی که در جریان پیشپردازش دادههای پزشکی اتخاذ میکنید، باید مستند شوند. این شفافیت به شما و دیگر پژوهشگران کمک میکند دلایل تغییر یا حذف برخی رکوردها را بعدا بررسی و بازبینی کنید. -
حفظ حریم خصوصی و قوانین
دادههای پزشکی بسیار حساس هستند و پیش از جمعآوری یا پردازش، لازم است قوانین و مقررات مربوط به حفاظت اطلاعات شخصی رعایت شود. اگر دادههای بیماران هویتزدایی نشده باشند، باید این مرحله را حتما در پیشپردازش در نظر گرفت. -
همکاری با متخصصان مختلف
متخصصان علوم داده (Data Scientists) و مهندسان نرمافزار بهتنهایی نمیتوانند درک کاملی از دادههای پزشکی داشته باشند. همکاری با پزشکان، رادیولوژیستها، پاتولوژیستها و متخصصان زیستشناسی برای تشخیص درست نویز یا تفسیر دادهها، بسیار حیاتی است.
جمعبندی
پیشپردازش دادههای پزشکی مرحلهای است که شاید در نگاه اول کماهمیت یا ساده به نظر برسد، اما در عمل بزرگترین تعیینکننده موفقیت یا شکست پروژههای هوش مصنوعی به شمار میآید. همانطور که در مقاله پیشین درباره مدیریت داده زیستی اشاره کردیم، اگر دادههای پزشکی را نتوانیم به شکل صحیح جمعآوری، پاکسازی و استاندارد کنیم، الگوریتمهای هوشمند هرچقدر هم پیشرفته باشند، خروجی قابل اعتمادی تحویل نخواهند داد.
ما در «دایا زیست فناوران» آموزشهای تخصصی و شخصیسازی شده هوش مصنوعی و یادگیری ماشین را برای مخاطبین علوم زیستی و پزشکی ارائه کردهایم. مبانی یادگیری ماشین برای افرادی که تمایل دارند بیشتر در مورد این حوزه بدانند و مسترکلاس یادگیری ماشین و یادگیری عمیق، برای علاقمندانی که قصد دارند به شکل جدی و تخصصی وارد مسیر هوش مصنوعی شوند، توصیه میگردند.