یادگیری ماشین

نقش فعال یادگیری ماشین در توسعة دارو

به ‏دلیل پیچیدگی سیستم‌های زیستی، روش‌های پیشرفتة یادگیری ماشین برای توسعة دارو در آینده، حیاتی خواهند بود. به‌ویژه روش‌های بینایی ماشین برای استخراج اطلاعات دقیق از آزمایش‌های تصویربرداری، لازم خواهند بود. در بیست سال گذشته، شرکت‌های داروسازی و زیست‌فناوری و همچنین بسیاری از آزمایشگاه‌های دانشگاهی، به‏طور گسترده‌ای از غربالگری استفاده کرده‌اند که با هدف شناسایی سریع داروهای بالقوه، بر اهداف مولکولی خاصی تأثیر می‌گذارد.

به گزارش مدرن مد، این فناوری‌ها به‏ طور چشمگیری نرخ و مقدار اطلاعاتی را که می‌توان دربارة آثار ترکیبات شیمیایی جمع‌آوری کرد، افزایش داده‌اند. با این ‏حال، فرضیة اینکه می‌توان داروهای مؤثر را از طریق غربالگری در آزمایش‌های هدف یافت، به‌دلیل شبکة پیچیدة تعاملاتی‌ای که درون سلول‌ها و بافت‌ها رخ می‌دهد، با مشکل مواجه شده است. داروها اغلب عوارض جانبی نامطلوبی دارند که تا مراحل پایانی فرایند توسعة دارو کشف نمی‌شوند. شناسایی این آثار در مراحل اولیة فرایند توسعه از طریق غربالگری هم‌زمان برای یک اثر خاص مطلوب و در برابر بسیاری از آثار نامطلوب (که ممکن است هزاران مورد باشند)، غیرممکن است.

یک رویکرد پیشنهادی، ایجاد پنل‌های آزمایشی برای پوشش جنبه‌های مختلف رفتار سلول یا بافت است. این روش ممکن است ابعاد مسئله را کاهش دهد، اما به دانستن پیشاپیش اینکه کدام جنبه‌ها باید آزمایش شوند، متکی است. این نوع چالش در پروژه‌های علم بزرگ به‏ طور گسترده‌ای مشاهده می‌شود و یکی از مواردی است که یادگیری ماشین، که در آن، روش‌های آماری و محاسباتی برای یادگیری روابط پیچیده و ساخت مدل‌ها به کار می‌روند، به‌خوبی می‌تواند به آن پاسخ دهد. بنابراین، یادگیری ماشین نقش‌ فزاینده‌ای در فرایند کشف و توسعة دارو ایفا خواهد کرد.

در این مطالعه، بر دو حوزه تمرکز می‌شود که در آن‌ها، یادگیری ماشین می‌تواند تأثیر عمیقی داشته باشد: استفاده از روش‌های بینایی ماشین برای بهبود استخراج اطلاعات از آزمایش‌های با محتوای بالا و استفاده از یادگیری ماشین برای هدایت آزمایش‌ها. غربالگری به ‏طور گسترده‌ای برای تعیین آثار ترکیبات مولکولی کوچک، RNAهای بازدارنده یا درمان‌های دیگر بر اهداف مولکولی خاص و رفتارهای سلولی استفاده می‌شود.

تحلیل در غربالگری با محتوای بالا، معمولاً از طریق محاسبة ویژگی‌هایی که جنبه‌های تصاویر را توصیف می‌کنند و آموزش طبقه‌بند برای شناسایی الگوهای مورد انتظار انجام می‌شود. یک روش موثر، استفاده از روش‌های خوشه‌بندی است که به شناخت الگوها از قبل نیازی ندارد و می‌تواند ترکیباتی با آثار زیستی مشابه را شناسایی کند. درحالی‏که این رویکردها اطلاعات مهمی ارائه می‌دهند، دو محدودیت عمده دارند.

اولین محدودیت این است که این روش‌ها در مواقعی که تغییرات به‏ صورت پیوسته و تدریجی رخ می‌دهند، عملکرد خوبی ندارند؛ زیرا فرض جمعیت‌های گسسته، که در روش‌های طبقه‌بندی و خوشه‌بندی استفاده می‌شود، در این موارد صدق نمی‌کند. مثالی از یک تغییر پیوسته، جابه‌جایی یک پروتئین از یک اندامک به اندامک دیگر است. طبقه‌بندها ممکن است نشان دهند که آیا این جابه‌جایی در یک آزمایش رخ داده است یا خیر، اما به‏ طور دقیق، دینامیک فرایند را نمایان نمی‌کنند و همچنین مشخص نمی‌کنند که آیا دو ترکیب در شدت جابه‌جایی القایی تفاوت دارند یا خیر.

دومین محدودیت این است که ویژگی‌های تصویری معمولاً به تفاوت‌های اندازه و شکل سلول حساس هستند، به‌طوری که نمی‌توان از همان طبقه‌بند برای بیش از یک نوع سلول استفاده کرد. این موضوع نه‏تنها به آموزش مجدد برای هر نوع سلول نیاز دارد، بلکه مهم‌تر از آن، مقایسة الگوها بین انواع مختلف سلول را به‏راحتی امکان‌پذیر نمی‌کند. شکل 1 روش‌های بینایی ماشین را برای شناسایی و تحلیل آثار دارو و بیماری در توزیع پروتئین‌ها، نشان می‌دهد. شکل ۱ (a) روش‌هایی برای استخراج اطلاعات دربارة مکان زیرسلولی از تصاویر میکروسکوپی را نشان می‏دهد.

با داشتن مجموعه‌ای از تصاویر مربوط به یک نوع سلول با الگوهای ناشناخته (مانند پروتئین‌های برچسب‌گذاری‌شده با توزیع‌های زیرسلولی نامشخص) و تصاویری از پروتئین‌هایی با الگوهای مکانی شناخته‌شده (بنیادی) در آن نوع سلول، می‌توان یک طبقه‌بند را آموزش داد، تا این الگوهای زیرسلولی را شناسایی و از آن برای تخصیص برچسب به هر تصویر ناشناخته استفاده کند.

اگر تصاویر ناشناخته حاوی ترکیبی از الگوها باشند، نتایج پیش‌بینی‌ناپذیر خواهند بود. تصاویر مکان‌های بنیادی می‌توانند برای آموزش نوعی سیستم به روش نظارت‌شده استفاده شوند، به‏گونه‌ای که میزان هر الگوی بنیادی در تصاویر ناشناخته مشخص شود. این روش، نمایشی دقیق‌تر از توزیع پروتئین ارائه می‌دهد. اگر تصاویر الگوهای بنیادی موجود نباشند (یا اگر همة الگوها ناشناخته باشند)، می‌توان از روش غیرنظارت‌شده استفاده کرد، تا الگوهای بنیادی و میزان حضور در هر الگو، به‏طور هم‌زمان تخمین زده شوند.

شکل ۱ (b) روش‌هایی را برای مقایسه الگوهای مکانی بین انواع سلول‌ها و شرایط مختلف نشان می‏دهد. روش‌های فعلی به منظور شناسایی الگوهای مکانی در هر نوع سلول، از ویژگی‌ها برای آموزش طبقه‌بندها استفاده می‌کنند و سپس آن‌ها را به کار می‌گیرند، تا مشخص کنند که آیا الگو با یک ترکیب تغییر یافته است یا خیر. این روش‌ها معمولاً تغییرات عمده را شناسایی می‌کنند.

برخلاف رویکردهای توصیفی مبتنی بر ویژگی، مدل‌های مولد قادرند تصاویر جدیدی تولید کنند که از نظر آماری، از همان جمعیتی گرفته شده‌اند که مدل براساس آن آموزش دیده است. یک سؤال اساسی در طراحی رویکردهایی برای یادگیری مدل‌های مولد، این است که چگونه جنبه‌های مختلف سازمان سلولی را تجزیه کنیم. یک رویکرد این است که ابتدا مدلی از اندازه و شکل هسته ساخته شود و سپس از آن، به‌عنوان پایه‌ای برای مدل اندازه و شکل سلول استفاده شود.

 

یادگیری ماشین

شکل 1. روش‌های بینایی ماشینی برای شناسایی و تحلیل آثار دارو و بیماری در توزیع پروتئین‌ها

 

توزیع اجزای دیگر می‌تواند به‌صورت نسبی نسبت به غشای پلاسمایی و هسته یاد گرفته شود. چنین مدل‌هایی دارای ساختار شرطی هستند؛ یعنی مدل یک اندامک خاص مانند اندوزوم ، به مدل‌ غشای پلاسمایی و هسته وابسته است و مدل غشای پلاسمایی، به مدل هسته وابسته است.

یکی از مزایای اصلی یادگیری مدل‌های مولد این است که پارامترهای این مدل‌ها روشی برای مقایسة توزیع بین انواع سلول‌ها یا شرایط مختلف فراهم می‌کنند. برای مثال، می‌توانیم بپرسیم که آیا توزیع میتوکندری‌ها در یک نوع سلول با نوع دیگر سلول، پس از لحاظ‏کردن تفاوت‌های اندازه و شکل سلول، از یک مدل پیروی می‌کند یا خیر.

در سطح بنیادین، مشکل اصلی در غربالگری برای شناسایی داروهای بالقوه، ابعاد فضای آزمایشی است که در آن، غربالگری انجام می‌شود. تعداد آزمایش‌های لازم برای غربالگری که در یک هدف تأثیر می‌گذارند، بدون اینکه در اهداف دیگر تأثیر بگذارند، می‌توانند به‏ سرعت غیرقابل حل شوند. تنها راه‏ حل عملی این است که زیرمجموعه‌ای از آزمایش‌های ممکن انجام شود.

در رویکردهای کنونی توسعة دارو، نیاز است که دانشمندان مسیری در فضای آزمایشی انتخاب کنند که توسط دانش موجود (برای مثال، مسیرهای سیگنال‌دهی) هدایت شود. این فرایند معمولاً با اطلاعات ناقص یا نادرست دربارة مسیرها و دشواری در پیش‌بینی تعاملات پیچیدة مسیرها، دچار مشکل می‌شود.

یک راه ‏حل مناسب، استفاده از روش‌های یادگیری ماشین برای ساخت مدل‌های آماری از کل فضای آزمایشی و انتخاب آزمایش‌هایی است که به ‏طور پیوسته، انتظار می‌رود بهترین مدل را بهبود بخشند. نقطة قوت اصلی این رویکرد این است که انتخاب آزمایش‌ها به‌طور کاملاً تجربی هدایت می‌شود و پیچیدگی بالقوة سیستم به‏ طور کامل در نظر گرفته می‌شود. یادگیری فعال در برخی از حوزه‌ها به‏خوبی تثبیت شده است.

دو مؤلفة اصلی یک سیستم یادگیری، روش‌هایی برای ساخت مدل پیش‌بینی از داده‌های موجود و روش‌هایی برای استفاده از مدل به‌منظور جمع‌آوری داده‌های آینده هستند.

ساخت مدل‌ها و کاربرد آن‌ها، در حال‌ حاضر از بخش‌های اصلی زیست‌شناسی سیستم‌هاست. تفاوت اساسی بین یادگیری فعال و زیست‌شناسی سیستم‌ها این است که زیست‏شناسی سیستم‌‏ها معمولاً به‏ دنبال آزمایش یا اعتبارسنجی یک مدل هستند. بنابراین، فقط ساخت مدل و آزمایش آن را توصیف می‌کنند و پیش‌بینی با اطمینان زیاد (اغلب بیشترین اطمینان) را برای آزمایش انتخاب می‌کنند.

به‏ جز مواردی که ساخت مدل به ‏شدت معیوب بوده باشد، پیش‌بینی معمولاً درست است و بنابراین، اطلاعات کمی برای بهبود مدل فراهم می‌کند، یا اصلاً اطلاعاتی ارائه نمی‌دهد. در مقابل، ایدة روش‌های یادگیری فعال این است که آزمایش‌هایی را انتخاب می‌کند که پیش‌بینی‌ها احتمالاً اشتباه خواهند بود؛ زیرا انتظار می‌رود این آزمایش‌ها به‌طور مستقیم به بهبود مدل منجر شوند.

ساخت مدل‏های پیش‏‌بینی کننده

انتخاب روش ساخت مدل باید خاص مسئله‌ای باشد که در حال مطالعه است. موردی که اینجا مدنظر است، تأثیرات پرتوربجن‌ها در بسیاری از اهداف (معمولاً پروتئین‌ها)، در انواع مختلف سلول‌هاست. پس از ساخت مدل، چالش این است که کدام داده‌ها باید برای جمع‌آوری انتخاب شوند. تعدادی از روش‌های یادگیری فعال برای انجام این کار توصیف شده‌اند که معمولاً بین انتخاب نقاطی که مدل فعلی در آن‌ها نامطمئن است و نقاطی که در مناطق ناشناخته قرار دارند، تعادل برقرار می‌کنند. هدف این نیست که مدل فعلی آزمایش شود، بلکه هدف بهبود آن به میزان و سرعت ممکن است.

بحث و نتیجه‌گیری

درحالی‌که انتظار می‌رود پیچیدگی سیستم‌های سلولی به چالش‌های پیش روی زیست‌شناسان سلولی و توسعه‌دهندگان دارو در سال‌های آینده ادامه دهد، روش‌های یادگیری ماشین امیدهای بزرگی برای تعیین روابط حیاتی حاکم بر رفتارهای سلولی دارند که از طریق استخراج بهتر اطلاعات از غربالگری‌های محتوای بالا، که توسط یادگیری فعال هدایت می‌شوند، محقق خواهد شد. نتیجه این خواهد بود که کشف و توسعة داروها به‏طور چشمگیری بهبود خواهد یافت؛ زیرا می‌توانیم آثار داروهای بالقوه را به‌طور جامع‌تری ارزیابی کنیم.

 

Reference
Murphy. R. (2011) “An Active Role for Machine Learning in Drug Development”, Nat Chem Biol; 7(6):327-330.

 

تهیه‌وتنظیم: دکتر ندا کفاش

 

نوشته‌های مشابه