پیش‌پردازش داده‌های پزشکی و زیستی – چرا و چگونه؟

پیش‌پردازش داده‌های پزشکی و زیستی - چرا و چگونه؟
در این پست می‌خوانید:

در مقاله قبلی از سری مقالات آشنایی با هوش مصنوعی برای بیولوژیست‌ها و پزشکان، در مورد مفهوم مدیریت داده‌های زیستی و پزشکی صحبت شد. اما صرفا مدیریت و نگهداری داده‌ها به تنهایی کافی نیست. زمانی که قصد داریم از یک دیتاست زیستی و یا پزشکی برای پروژه‌های هوش مصنوعی استفاده کنیم، لازم است مرحله‌ای حیاتی به نام پیش‌پردازش داده یا Data Preprocessing صورت گیرد. این فرآیند شامل تمیزکردن، سامان‌دهی، تبدیل و استانداردسازی داده‌هاست تا در نهایت، مدل‌های هوش مصنوعی بتوانند خروجی‌های قابل اعتماد و معتبری ارائه دهند. در این مقاله به بررسی پیش‌پردازش داده های پزشکی و زیستی خواهیم پرداخت.

چرا پیش‌پردازش داده‌های پزشکی مهم است؟

  1. حجم و تنوع بالای داده
    داده‌های پزشکی می‌توانند شامل تصاویر رادیولوژی، پرونده‌های سلامت الکترونیک، نتایج آزمایشگاهی و داده‌های ژنتیکی باشند. هرکدام از این داده‌ها ساختار و فرمت متفاوتی دارند و بدون پیش‌پردازش داده‌های پزشکی، ادغام یا تحلیل یکپارچه آن‌ها دشوار خواهد بود.

  2. حساسیت بالای تصمیم‌گیری بالینی
    خروجی الگوریتم‌های هوش مصنوعی در پزشکی اغلب روی تصمیم‌های بالینی تأثیر می‌گذارد؛ برای مثال، تشخیص وجود تومور در یک تصویر سی‌تی‌اسکن یا پیش‌بینی احتمال حمله قلبی بر اساس سوابق بیمار. در چنین مواردی، حتی خطاهای کوچک در مرحله پردازش داده می‌تواند پیامدهای جدی داشته باشد.

  3. وجود نویز (Noise) و داده‌های گم‌شده (Missing Data)
    داده‌های جمع‌آوری‌شده از بیمارستان‌ها و مراکز درمانی ممکن است حاوی مقدار زیادی نویز و مقادیر خالی باشند. اگر این موارد به‌درستی مدیریت نشوند، عملکرد مدل‌های یادگیری ماشین کاهش می‌یابد.

  4. استانداردهای مختلف و پراکندگی داده‌ها
    عدم پیروی از یک استاندارد یکپارچه برای ذخیره سوابق پزشکی، سبب می‌شود داده‌ها از منابع مختلف با روش‌های متفاوت ذخیره و برچسب‌گذاری شوند. پیش‌پردازش می‌تواند به هماهنگ‌کردن قالب‌ها و استانداردسازی متغیرها کمک کند.

مراحل اصلی پیش‌پردازش داده‌های پزشکی

۱٫ جمع‌آوری و سازماندهی اولیه

در نخستین گام، لازم است داده‌ها از منابع مختلف جمع‌آوری شوند. در ادامه، لازم است تغییرات و دسته‌بندی‌های آغازین روی داده‌ها جهت تبدیل آن‌ها به یک دیتاست قابل استفاده صورت پذیرد. با توجه به فرمت متفاوتی که هریک از داده‌های زیستی و پزشکی دارند، لازم است مراحلی جهت تبدیل این داده‌ها به فرمت عددی و جدولی صورت پذیرد. اغلب در پروژه‌های ماشین لرنینگی، از جداولی حاوی متغیرها و لیبل نمونه‌ها (در صورت موجود بودن)، استفاده می‌گردد. پس اگر داده مورد استفاده به شکل تصویر، متن و یا سایر فرمت‌هاست، لازم است این تبدیل کردن و تبدیل نمونه‌ها به یک دیتاست واحد صورت پذیرد.

۲. پاک‌سازی داده‌ها (Data Cleaning)

در این مرحله، داده‌ها را از هر گونه نویز، خطا و نواقص احتمالی پالایش می‌کنیم تا مدل‌های هوش مصنوعی به داده‌هایی تمیز و بامعنا دسترسی داشته باشند. یکی از مهم‌ترین فعالیت‌های این مرحله، شناسایی و مدیریت داده‌های مفقود (Missing Values) است. برای مقادیر مفقود می‌توانید از روش‌هایی نظیر جایگزینی با میانگین یا میانه، حذف ردیف یا تخمین مقداری مناسب استفاده کنید. همچنین شناسایی مقادیر ناهنجار (Outliers) که خارج از محدوده انتظارات قرار دارند، از اهمیت ویژه‌ای برخوردار است؛ چراکه وجود داده‌های پرت می‌تواند باعث انحراف مدل و کاهش دقت شود. علاوه بر این، باید به داده‌های تکراری یا ناسازگار توجه داشته باشید و آن‌ها را حذف یا اصلاح کنید. همه این اقدامات در نهایت باعث بهبود کیفیت مجموعه داده شده و از بروز خطا در مدل جلوگیری می‌کند.

۳. تبدیل و کدگذاری داده‌ها (Data Transformation & Encoding)

الگوریتم‌های یادگیری ماشین با داده‌های عددی کار می‌کنند. بنابراین، در صورتی که داده‌های شما شامل داده‌های طبقه‌ای (Categorical) باشند، نیاز دارید این ویژگی‌ها را به شکل عددی تبدیل کنید. روش‌هایی مانند Label Encoding یا One-Hot Encoding بسته به نوع داده و مسئله قابل استفاده هستند. همچنین مقیاس‌بندی (Scaling) و نرمال‌سازی (Normalization) داده‌ها نقش مهمی در افزایش دقت مدل دارد. تکنیک‌های مختلفی جهت مقیاس‌بندی متغیرهای موجود در دیتاست وجود دارند.

۴. مهندسی ویژگی (Feature Engineering)

دیتاست مورد استفاده در پروژه‌های ماشین لرنینگی، اغلب به شکل جدولی است که ردیف‌های آن نمونه‌ها و ستون‌ها متغیرها یا همان Feature ها هستند. مهندسی ویژگی هنر استخراج و ساخت متغیرها یا همان ویژگی‌های جدید و سودمند از داده‌های اولیه است. در بسیاری از مسائل، ویژگی‌های خام ممکن است کافی نباشند یا نتوانند الگوهای نهفته در داده‌ها را به‌خوبی نمایان کنند. ازاین‌رو، می‌توانید با ترکیب ویژگی‌ها، اعمال توابع ریاضی، یا تکنیک‌های خاص در شرایط گوناگون، ویژگی‌های جدیدی به مجموعه اضافه کنید. همچنین انتخاب ویژگی‌های کلیدی از میان انبوهی از ویژگی‌های بالقوه، از مراحل مهم است.

۵. تقسیم‌بندی داده‌ها (Data Splitting)

برای ارزیابی صحیح عملکرد مدل و اطمینان از توانایی تعمیم آن به داده‌هایی که تا کنون با آن‌ها برخورد نداشته، لازم است مجموعه داده را به بخش‌های گوناگونی تقسیم کنید. رایج‌ترین شیوه این است که داده‌ها را به دو بخش اصلی «آموزش (Train)» و «تست (Test)» تقسیم کنید. با استفاده از دیتاست Train، کار آموزش مدل انجام می‌شود و با استفاده از دیتاست Test، کار ارزیابی مدل صورت می‌پذیرد.

توصیه می‌شود جهت جلوگیری از نشت داده، مرحله Feature Scaling بعد از مرحله Data Splitting صورت پذیرد.

نکات مهم برای موفقیت در پیش‌پردازش داده‌های پزشکی

  1. توجه به کیفیت داده
    حتی اگر داده‌هایی با حجم بالا در اختیار داشته باشید، اگر کیفیت آن‌ها پایین باشد (نویز زیاد، اطلاعات ناقص، برچسب‌های اشتباه)، مدل‌های هوش مصنوعی عملکرد خوبی نخواهند داشت. بنابراین اولویت اول، اطمینان از کیفیت داده است.

  2. مستندسازی (Documentation)
    تمام مراحل و تصمیم‌هایی که در جریان پیش‌پردازش داده‌های پزشکی اتخاذ می‌کنید، باید مستند شوند. این شفافیت به شما و دیگر پژوهشگران کمک می‌کند دلایل تغییر یا حذف برخی رکوردها را بعدا بررسی و بازبینی کنید.

  3. حفظ حریم خصوصی و قوانین
    داده‌های پزشکی بسیار حساس هستند و پیش از جمع‌آوری یا پردازش، لازم است قوانین و مقررات مربوط به حفاظت اطلاعات شخصی رعایت شود. اگر داده‌های بیماران هویت‌زدایی نشده باشند، باید این مرحله را حتما در پیش‌پردازش در نظر گرفت.

  4. همکاری با متخصصان مختلف
    متخصصان علوم داده (Data Scientists) و مهندسان نرم‌افزار به‌تنهایی نمی‌توانند درک کاملی از داده‌های پزشکی داشته باشند. همکاری با پزشکان، رادیولوژیست‌ها، پاتولوژیست‌ها و متخصصان زیست‌شناسی برای تشخیص درست نویز یا تفسیر داده‌ها، بسیار حیاتی است.

جمع‌بندی

پیش‌پردازش داده‌های پزشکی مرحله‌ای است که شاید در نگاه اول کم‌اهمیت یا ساده به نظر برسد، اما در عمل بزرگ‌ترین تعیین‌کننده موفقیت یا شکست پروژه‌های هوش مصنوعی به شمار می‌آید. همان‌طور که در مقاله پیشین درباره مدیریت داده زیستی اشاره کردیم، اگر داده‌های پزشکی را نتوانیم به شکل صحیح جمع‌آوری، پاکسازی و استاندارد کنیم، الگوریتم‌های هوشمند هرچقدر هم پیشرفته باشند، خروجی قابل اعتمادی تحویل نخواهند داد.

ما در «دایا زیست فناوران» آموزش‌های تخصصی و شخصی‌سازی شده‌ هوش مصنوعی و یادگیری ماشین را برای مخاطبین علوم زیستی و پزشکی ارائه کرده‌ایم. مبانی یادگیری ماشین برای افرادی که تمایل دارند بیشتر در مورد این حوزه بدانند و مسترکلاس یادگیری ماشین و یادگیری عمیق، برای علاقمندانی که قصد دارند به شکل جدی و تخصصی وارد مسیر هوش مصنوعی شوند، توصیه می‌گردند.

دیدگاه‌ها ۰
ارسال دیدگاه جدید