
نقش فعال یادگیری ماشین در توسعة دارو
به دلیل پیچیدگی سیستمهای زیستی، روشهای پیشرفتة یادگیری ماشین برای توسعة دارو در آینده، حیاتی خواهند بود. بهویژه روشهای بینایی ماشین برای استخراج اطلاعات دقیق از آزمایشهای تصویربرداری، لازم خواهند بود. در بیست سال گذشته، شرکتهای داروسازی و زیستفناوری و همچنین بسیاری از آزمایشگاههای دانشگاهی، بهطور گستردهای از غربالگری استفاده کردهاند که با هدف شناسایی سریع داروهای بالقوه، بر اهداف مولکولی خاصی تأثیر میگذارد.
به گزارش مدرن مد، این فناوریها به طور چشمگیری نرخ و مقدار اطلاعاتی را که میتوان دربارة آثار ترکیبات شیمیایی جمعآوری کرد، افزایش دادهاند. با این حال، فرضیة اینکه میتوان داروهای مؤثر را از طریق غربالگری در آزمایشهای هدف یافت، بهدلیل شبکة پیچیدة تعاملاتیای که درون سلولها و بافتها رخ میدهد، با مشکل مواجه شده است. داروها اغلب عوارض جانبی نامطلوبی دارند که تا مراحل پایانی فرایند توسعة دارو کشف نمیشوند. شناسایی این آثار در مراحل اولیة فرایند توسعه از طریق غربالگری همزمان برای یک اثر خاص مطلوب و در برابر بسیاری از آثار نامطلوب (که ممکن است هزاران مورد باشند)، غیرممکن است.
یک رویکرد پیشنهادی، ایجاد پنلهای آزمایشی برای پوشش جنبههای مختلف رفتار سلول یا بافت است. این روش ممکن است ابعاد مسئله را کاهش دهد، اما به دانستن پیشاپیش اینکه کدام جنبهها باید آزمایش شوند، متکی است. این نوع چالش در پروژههای علم بزرگ به طور گستردهای مشاهده میشود و یکی از مواردی است که یادگیری ماشین، که در آن، روشهای آماری و محاسباتی برای یادگیری روابط پیچیده و ساخت مدلها به کار میروند، بهخوبی میتواند به آن پاسخ دهد. بنابراین، یادگیری ماشین نقش فزایندهای در فرایند کشف و توسعة دارو ایفا خواهد کرد.
در این مطالعه، بر دو حوزه تمرکز میشود که در آنها، یادگیری ماشین میتواند تأثیر عمیقی داشته باشد: استفاده از روشهای بینایی ماشین برای بهبود استخراج اطلاعات از آزمایشهای با محتوای بالا و استفاده از یادگیری ماشین برای هدایت آزمایشها. غربالگری به طور گستردهای برای تعیین آثار ترکیبات مولکولی کوچک، RNAهای بازدارنده یا درمانهای دیگر بر اهداف مولکولی خاص و رفتارهای سلولی استفاده میشود.
تحلیل در غربالگری با محتوای بالا، معمولاً از طریق محاسبة ویژگیهایی که جنبههای تصاویر را توصیف میکنند و آموزش طبقهبند برای شناسایی الگوهای مورد انتظار انجام میشود. یک روش موثر، استفاده از روشهای خوشهبندی است که به شناخت الگوها از قبل نیازی ندارد و میتواند ترکیباتی با آثار زیستی مشابه را شناسایی کند. درحالیکه این رویکردها اطلاعات مهمی ارائه میدهند، دو محدودیت عمده دارند.
اولین محدودیت این است که این روشها در مواقعی که تغییرات به صورت پیوسته و تدریجی رخ میدهند، عملکرد خوبی ندارند؛ زیرا فرض جمعیتهای گسسته، که در روشهای طبقهبندی و خوشهبندی استفاده میشود، در این موارد صدق نمیکند. مثالی از یک تغییر پیوسته، جابهجایی یک پروتئین از یک اندامک به اندامک دیگر است. طبقهبندها ممکن است نشان دهند که آیا این جابهجایی در یک آزمایش رخ داده است یا خیر، اما به طور دقیق، دینامیک فرایند را نمایان نمیکنند و همچنین مشخص نمیکنند که آیا دو ترکیب در شدت جابهجایی القایی تفاوت دارند یا خیر.
دومین محدودیت این است که ویژگیهای تصویری معمولاً به تفاوتهای اندازه و شکل سلول حساس هستند، بهطوری که نمیتوان از همان طبقهبند برای بیش از یک نوع سلول استفاده کرد. این موضوع نهتنها به آموزش مجدد برای هر نوع سلول نیاز دارد، بلکه مهمتر از آن، مقایسة الگوها بین انواع مختلف سلول را بهراحتی امکانپذیر نمیکند. شکل 1 روشهای بینایی ماشین را برای شناسایی و تحلیل آثار دارو و بیماری در توزیع پروتئینها، نشان میدهد. شکل ۱ (a) روشهایی برای استخراج اطلاعات دربارة مکان زیرسلولی از تصاویر میکروسکوپی را نشان میدهد.
با داشتن مجموعهای از تصاویر مربوط به یک نوع سلول با الگوهای ناشناخته (مانند پروتئینهای برچسبگذاریشده با توزیعهای زیرسلولی نامشخص) و تصاویری از پروتئینهایی با الگوهای مکانی شناختهشده (بنیادی) در آن نوع سلول، میتوان یک طبقهبند را آموزش داد، تا این الگوهای زیرسلولی را شناسایی و از آن برای تخصیص برچسب به هر تصویر ناشناخته استفاده کند.
اگر تصاویر ناشناخته حاوی ترکیبی از الگوها باشند، نتایج پیشبینیناپذیر خواهند بود. تصاویر مکانهای بنیادی میتوانند برای آموزش نوعی سیستم به روش نظارتشده استفاده شوند، بهگونهای که میزان هر الگوی بنیادی در تصاویر ناشناخته مشخص شود. این روش، نمایشی دقیقتر از توزیع پروتئین ارائه میدهد. اگر تصاویر الگوهای بنیادی موجود نباشند (یا اگر همة الگوها ناشناخته باشند)، میتوان از روش غیرنظارتشده استفاده کرد، تا الگوهای بنیادی و میزان حضور در هر الگو، بهطور همزمان تخمین زده شوند.
شکل ۱ (b) روشهایی را برای مقایسه الگوهای مکانی بین انواع سلولها و شرایط مختلف نشان میدهد. روشهای فعلی به منظور شناسایی الگوهای مکانی در هر نوع سلول، از ویژگیها برای آموزش طبقهبندها استفاده میکنند و سپس آنها را به کار میگیرند، تا مشخص کنند که آیا الگو با یک ترکیب تغییر یافته است یا خیر. این روشها معمولاً تغییرات عمده را شناسایی میکنند.
برخلاف رویکردهای توصیفی مبتنی بر ویژگی، مدلهای مولد قادرند تصاویر جدیدی تولید کنند که از نظر آماری، از همان جمعیتی گرفته شدهاند که مدل براساس آن آموزش دیده است. یک سؤال اساسی در طراحی رویکردهایی برای یادگیری مدلهای مولد، این است که چگونه جنبههای مختلف سازمان سلولی را تجزیه کنیم. یک رویکرد این است که ابتدا مدلی از اندازه و شکل هسته ساخته شود و سپس از آن، بهعنوان پایهای برای مدل اندازه و شکل سلول استفاده شود.
شکل 1. روشهای بینایی ماشینی برای شناسایی و تحلیل آثار دارو و بیماری در توزیع پروتئینها
توزیع اجزای دیگر میتواند بهصورت نسبی نسبت به غشای پلاسمایی و هسته یاد گرفته شود. چنین مدلهایی دارای ساختار شرطی هستند؛ یعنی مدل یک اندامک خاص مانند اندوزوم ، به مدل غشای پلاسمایی و هسته وابسته است و مدل غشای پلاسمایی، به مدل هسته وابسته است.
یکی از مزایای اصلی یادگیری مدلهای مولد این است که پارامترهای این مدلها روشی برای مقایسة توزیع بین انواع سلولها یا شرایط مختلف فراهم میکنند. برای مثال، میتوانیم بپرسیم که آیا توزیع میتوکندریها در یک نوع سلول با نوع دیگر سلول، پس از لحاظکردن تفاوتهای اندازه و شکل سلول، از یک مدل پیروی میکند یا خیر.
در سطح بنیادین، مشکل اصلی در غربالگری برای شناسایی داروهای بالقوه، ابعاد فضای آزمایشی است که در آن، غربالگری انجام میشود. تعداد آزمایشهای لازم برای غربالگری که در یک هدف تأثیر میگذارند، بدون اینکه در اهداف دیگر تأثیر بگذارند، میتوانند به سرعت غیرقابل حل شوند. تنها راه حل عملی این است که زیرمجموعهای از آزمایشهای ممکن انجام شود.
در رویکردهای کنونی توسعة دارو، نیاز است که دانشمندان مسیری در فضای آزمایشی انتخاب کنند که توسط دانش موجود (برای مثال، مسیرهای سیگنالدهی) هدایت شود. این فرایند معمولاً با اطلاعات ناقص یا نادرست دربارة مسیرها و دشواری در پیشبینی تعاملات پیچیدة مسیرها، دچار مشکل میشود.
یک راه حل مناسب، استفاده از روشهای یادگیری ماشین برای ساخت مدلهای آماری از کل فضای آزمایشی و انتخاب آزمایشهایی است که به طور پیوسته، انتظار میرود بهترین مدل را بهبود بخشند. نقطة قوت اصلی این رویکرد این است که انتخاب آزمایشها بهطور کاملاً تجربی هدایت میشود و پیچیدگی بالقوة سیستم به طور کامل در نظر گرفته میشود. یادگیری فعال در برخی از حوزهها بهخوبی تثبیت شده است.
دو مؤلفة اصلی یک سیستم یادگیری، روشهایی برای ساخت مدل پیشبینی از دادههای موجود و روشهایی برای استفاده از مدل بهمنظور جمعآوری دادههای آینده هستند.
ساخت مدلها و کاربرد آنها، در حال حاضر از بخشهای اصلی زیستشناسی سیستمهاست. تفاوت اساسی بین یادگیری فعال و زیستشناسی سیستمها این است که زیستشناسی سیستمها معمولاً به دنبال آزمایش یا اعتبارسنجی یک مدل هستند. بنابراین، فقط ساخت مدل و آزمایش آن را توصیف میکنند و پیشبینی با اطمینان زیاد (اغلب بیشترین اطمینان) را برای آزمایش انتخاب میکنند.
به جز مواردی که ساخت مدل به شدت معیوب بوده باشد، پیشبینی معمولاً درست است و بنابراین، اطلاعات کمی برای بهبود مدل فراهم میکند، یا اصلاً اطلاعاتی ارائه نمیدهد. در مقابل، ایدة روشهای یادگیری فعال این است که آزمایشهایی را انتخاب میکند که پیشبینیها احتمالاً اشتباه خواهند بود؛ زیرا انتظار میرود این آزمایشها بهطور مستقیم به بهبود مدل منجر شوند.
ساخت مدلهای پیشبینی کننده
انتخاب روش ساخت مدل باید خاص مسئلهای باشد که در حال مطالعه است. موردی که اینجا مدنظر است، تأثیرات پرتوربجنها در بسیاری از اهداف (معمولاً پروتئینها)، در انواع مختلف سلولهاست. پس از ساخت مدل، چالش این است که کدام دادهها باید برای جمعآوری انتخاب شوند. تعدادی از روشهای یادگیری فعال برای انجام این کار توصیف شدهاند که معمولاً بین انتخاب نقاطی که مدل فعلی در آنها نامطمئن است و نقاطی که در مناطق ناشناخته قرار دارند، تعادل برقرار میکنند. هدف این نیست که مدل فعلی آزمایش شود، بلکه هدف بهبود آن به میزان و سرعت ممکن است.
بحث و نتیجهگیری
درحالیکه انتظار میرود پیچیدگی سیستمهای سلولی به چالشهای پیش روی زیستشناسان سلولی و توسعهدهندگان دارو در سالهای آینده ادامه دهد، روشهای یادگیری ماشین امیدهای بزرگی برای تعیین روابط حیاتی حاکم بر رفتارهای سلولی دارند که از طریق استخراج بهتر اطلاعات از غربالگریهای محتوای بالا، که توسط یادگیری فعال هدایت میشوند، محقق خواهد شد. نتیجه این خواهد بود که کشف و توسعة داروها بهطور چشمگیری بهبود خواهد یافت؛ زیرا میتوانیم آثار داروهای بالقوه را بهطور جامعتری ارزیابی کنیم.
Reference
Murphy. R. (2011) “An Active Role for Machine Learning in Drug Development”, Nat Chem Biol; 7(6):327-330.
تهیهوتنظیم: دکتر ندا کفاش