بیوانفورماتیک چیست؟ کاربردها و منابع یادگیری – به زبان ساده
رشد سریع و توسعه فناوری رایانهای، همراه با پیشرفتهای چشمگیر در درک ما از زیست شناسی انسانی حاصل از پروژه ژنوم انسانی و سرمایه گذاریهای الهام گرفته از آن، رشد اخیر در بیوانفورماتیک را تسهیل کرده است. بیوانفورماتیک، علوم کامپیوتر را با زیست شناسی ادغام میکند تا دادههای مربوط به سیستمهای بیولوژیکی را ذخیره، تجزیه و تحلیل و به اشتراک بگذارد که اغلب این دادهها مربوط به DNA و توالی اسیدهای آمینه است.
بیوانفورماتیک چیست؟
بیوانفورماتیک ترکیبی از زیست شناسی و فناوری اطلاعات است. اساساً، بیوانفورماتیک علمی است که اخیراً توسعه یافته و از فناوری اطلاعات برای درک پدیده بیولوژیکی استفاده میکند. بیوانفورماتیک به طور گستردهای شامل ابزارها و روشهای محاسباتی است که برای مدیریت، تجزیه و تحلیل و ادراه کردن دادههای حجیم بیولوژیکی استفاده میشود.
بیوانفورماتیک همچنین ممکن است به عنوان بخشی از زیست شناسی محاسباتی در نظر گرفته شود. زیست شناسی محاسباتی با استفاده از تکنیکهای تحلیلی کمی در مدلسازی و حل مشکلات در سیستمهای بیولوژیکی درگیر است. بیوانفورماتیک یک رویکرد میان رشتهای است که به دانش پیشرفته علوم کامپیوتر، ریاضیات و روشهای آماری برای درک پدیدههای بیولوژیکی در سطح مولکولی نیاز دارد.
تاریخچه
پایههای بیوانفورماتیک در اوایل دهه 1960 با استفاده از روشهای محاسباتی برای تجزیه و تحلیل توالی پروتئین به ویژه، مونتاژ توالیهای جدید، پایگاه دادههای توالی بیولوژیکی و مدلهای جایگزینی گذاشته شد. بعدا از آن، تجزیه و تحلیل DNA نیز به دلیل پیشرفت موازی روشهای زیست شناسی مولکولی (که دستکاری آسانتر DNA و همچنین توالی آن را فراهم میکند) و همچنین پیشرفت در علوم کامپیوتر و ظهور رایانههای کوچک (که قدرتمندتر بوده و دارای نرم افزارهای جدیدتر و مناسبتر برای انجام کارهای بیوانفورماتیک بود) سادهتر شد. اصطلاح بیوانفورماتیک، برای اولین بار در دهه 1990 مطرح شد. در اصل، این کار با مدیریت و تجزیه و تحلیل دادههای مربوط به توالی DNA ، RNA و پروتئین بود.
از آنجایی که دادههای بیولوژیکی با سرعت بی سابقهای تولید میشوند، مدیریت و تفسیر آنها به بیوانفورماتیک نیازمند است. بنابراین، بیوانفورماتیک اکنون انواع مختلفی از دادههای بیولوژیکی را نیز شامل میشود. اولین پایگاه اطلاعاتی بیوانفورماتیک / بیولوژیکی چند سال پس از در دسترس بودن اولین توالیهای پروتئینی ساخته شد. اولین توالی پروتئین گزارش شده مربوط به انسولین گاوی در سال 1956 بود که از 51 اسیدآمینه تشکیل شده بود. تقریباً یک دهه بعد، اولین توالی یابی اسید نوکلئیکی گزارش شد که مربوط به tRNA آلانین مخمر با 77 باز بود. فقط یک سال بعد، مارگارت دیلوف (1925–1983) که یک شیمی - فیزیک دان آمریکایی بود تمام دادههای توالیهای موجود را برای ایجاد اولین پایگاه داده بیوانفورماتیک جمع آوری کرد. پروتئین Data Bank در سال 1972 با جمع آوری ده پروتئین کریستالوگرافی شده با اشعه ایکس توالییابی شد و در سال 1987 تاسیس اولین پایگاه داده توالی پروتئین به نام The SWISS PROT آغاز شد.
داده های بیوانفورماتیکی
دادههای کلاسیک بیوانفورماتیک شامل توالی DNA ژنها یا ژنومهای کامل، توالی اسیدهای آمینه پروتئینها، ساختارهای سه بعدی پروتئینها و اسیدهای نوکلئیک و مجموعههای اسید نوکلئیک - پروتئین است. جریان دادههای فرعی یا omics عبارتند از: Transcriptomics که به معنی الگوی سنتز RNA از DNA است، پروتئومیکس که توزیع پروتئین در سلولها بوده، Interactomics که الگوهای فعل و انفعالات پروتئین - پروتئین و پروتئین - اسید نوکلئیک و Metabolomics که طبیعت و الگوهای ترافیکی تبدیل مولکولهای کوچک توسط مسیرهای بیوشیمیایی فعال در سلولها تعریف شده است. در هر حالت علاقه به دستیابی به دادههای دقیق و جامع برای انواع خاصی از سلولها و شناسایی الگوهای تغییر در دادهها وجود دارد.
به عنوان مثال، بسته به نوع سلول، زمان جمع آوری اطلاعات (در طول چرخه سلولی یا تغییرات روزانه، فصلی یا سالانه)، مرحله رشد و شرایط مختلف محیطی ممکن است دادهها در نوسان باشند. متاژنومیکس و متاپروتومیکس این اندازه گیریها را به شرح جامعی از ارگانیسمهای موجود در یک نمونه گرفته شده از محیط مانند یک سطل آب اقیانوس یا یک نمونه خاک گسترش میدهد. بیوانفورماتیک با شتاب زیاد فرآیندهای تولید داده در زیست شناسی را به جلو میبرد. روشهای تعیین توالی ژنوم شاید بارزترین اثرات آن را نشان دهند. در سال 1999 بایگانی توالی اسید نوکلئیک حاوی 3/5 میلیارد نوکلئوتید بود که کمی بیشتر از طول یک ژنوم انسانی است. یک دهه بعد این اطلاعات حاوی بیش از 283 میلیارد نوکلئوتید یعنی طولی به اندازه 95 عدد ژنوم انسانی بودند.
ذخیره و بازیابی داده ها
در بیوانفورماتیک، از بانکهای داده برای ذخیره و سازماندهی دادهها استفاده میشوند و محققان توالی DNA و RNA بسیاری از این موجودات را از مقالات علمی و پروژههای ژنوم جمع آوری میکنند. بسیاری از پایگاههای اطلاعاتی در اختیار کنسرسیومهای بین المللی است. به عنوان مثال، یک کمیته مشورتی متشکل از اعضای بانک اطلاعاتی توالی نوکلئوتید آزمایشگاه زیست شناسی مولکولی اروپا (EMBL-Bank) در انگلستان، بانک داده DNA ژاپن (DDBJ)، و GenBank از مرکز ملی اطلاعات بیوتکنولوژی در ایالات متحده (NCBI) بر «همکاری بین المللی بانک اطلاعات توالی نوکلئوتیدی» (INSDC) نظارت میکنند.
برای اطمینان از در دسترس بودن و آزاد بودن دادههای توالییابی، مجلات علمی لازم است که توالیهای نوکلئوتیدی جدید افراد را به عنوان شرط انتشار مقاله در یک پایگاه داده در دسترس عموم قرار دهند. شرایط مشابه در اسیدهای نوکلئیک برای ساختارهای پروتئینی نیز اعمال میشود، همچنین مرورگرهای ژنوم وجود دارند و پایگاه دادههایی که تمام اطلاعات ژنومی و مولکولی موجود، در مورد یک گونه خاص را با هم جمع میکنند. پایگاه داده اصلی ساختار ماکرومولکولی بیولوژیکی بانک اطلاعات پروتئین در سراسر جهان PDB است که حاصل یک تلاش و همکاری مشترک تحقیقات بیوانفورماتیکِ ساختاری (RCSB) در ایالات متحده، بانک اطلاعات پروتئین (PDBe) در انستیتوی بیوانفورماتیک اروپا در انگلستان و بانک اطلاعات پروتئین ژاپن در دانشگاه اُساکا است.
صفحات اصلی همکار PDB حاوی پیوندهایی به خود فایلهای داده و مطالب گویا و آموزشی (از جمله اخبار)، تسهیلات برای ذخیره مطالب جدید و نرم افزار جستجوی تخصصی برای بازیابی ساختارها هستند. بازیابی اطلاعات از بایگانی دادهها از ابزارهای استاندارد برای شناسایی داده توسط کلمه کلیدی استفاده میکند. الگوریتم های دیگر، بانک های داده را جستجو می کنند تا شباهتهای موردی دادهها را تشخیص دهند. به عنوان مثال، یک مسئله قابل کاوش در یک پایگاه توالی داده، استفاده از توالی ژنی یا پروتئینی مورد نظر به منظور شناسایی موجوداتی با توالی مشابه است.
اهداف بیوانفورماتیک
توسعه الگوریتمهای کارآمد برای اندازه گیری تشابه توالی، هدف مهم بیوانفورماتیک است. الگوریتم Needleman - Wunsch، که مبتنی بر برنامه نویسی پویا است، یافتن چینش بهینه جفت توالیها را تضمین میکند. این الگوریتم اساساً یک مسئله بزرگ (دنباله کامل) را به مجموعهای از مسائل کوچکتر (بخشهای توالی کوتاه) تقسیم میکند و از راه حلهای مسئلههای کوچکتر برای راه حل مسئله بزرگ استفاده میکند. شباهت در توالیها در یک ماتریکس امتیاز بندی میشوند و الگوریتم امکان تشخیص شکافها در «تراز بندی توالیها» (Sequence Alignment) را فراهم میکند. اگرچه الگوریتم Needleman - Wunsch موثر است، اما به عنوان کاوش یک پایگاه داده توالییابی بزرگ بسیار کند است.
بنابراین، توجه زیادی به یافتن الگوریتمهای بازیابی سریع اطلاعات شده است که میتوانند با مقادیر زیادی از دادهها در بایگانیها سر و کار داشته باشند. که برنامه «بلاست» (BLAST) یا Basic Local Alignment Search Tool یکی از آنها است. یک بخش پیشرفته از BLAST، شناخته شده به عنوان موقعیت خاص تکرار شونده یا PSIBLAST که برگرفته از position-specific iterated BLAST است، باعث استفاده از الگوهای حفاظتشده در توالیهای مرتبط میشود و ترکیبی از سرعت بالای BLAST همراه حساسیت بسیار بالا برای یافتن توالیهای مرتبط است.
هدف دیگر بیوانفورماتیک، گسترش دادههای تجربی توسط پیشبینیها است. یک هدف اساسی از زیست شناسی محاسباتی، پیش بینی ساختار پروتئین از یک توالی اسید آمینه است. پیشرفت در توسعه روشهای پیش بینی «حالات قرارگیری فضایی» (Folding) پروتئین توسط برنامههای ارزیابی حیاتی، پیش بینی ساختار (CASP) طی دو سال اندازهگیری میشود که شامل آزمونهای کور روشهای پیش بینی ساختار است. از بیوانفورماتیک برای پیش بینی تعاملات بین پروتئینها با توجه به ساختارهای فردی آمینواسیدها نیز استفاده میشود. این نوع پژوهش به عنوان داکینگ پروتئینها شناخته میشود. مجموعههای پروتئین - پروتئین مکمل بودن خوبی با هم در شکل سطحی و قطبیت دارند و عمدتا توسط فعل و انفعالات ضعیف مانند پیوندهای سطح آبگریز، پیوندهای هیدروژنی و نیروهای وان در والس تثبیت میشوند.
برنامههای نرم افزاری رایانهای این تعاملات را برای پیش بینی رابطه فضایی مطلوب بین زیرواحدهای متصل به هم شبیهسازی میکند. یک چالشی که میتواند کاربردهای درمانی مهمی داشته باشد، طراحی آنتی بادیهایی است که با میل زیاد به پروتئین هدف متصل شوند. در ابتدا، بسیاری از تحقیقات بیوانفورماتیک، تمرکز نسبتاً کمی بر الگوریتمهایی برای تجزیه و تحلیل انواع خاصی از دادهها، مانند توالی ژنها یا ساختارهای پروتئینی داشته است. با این حال، اکنون، اهداف بیوانفورماتیکی یکپارچه هستند و هدف آنها این است که دریابند چگونه میتوان از ترکیب انواع مختلف دادهها برای درک بهتر پدیدههای طبیعی، از جمله ارگانیسمها و بیماریها استفاده کرد.
ابزارهای بیوانفورماتیکی چه هستند؟
ابزار اصلی یک «بیوانفورماتیست» (فردی که بر روی بیوانفورماتیک مطالعه و پژوهش انجام میدهد) برنامههای نرم افزاری رایانهای و اینترنتی است. یکی از فعالیتهای اصلی در این زمینه، تجزیه و تحلیل توالی DNA و پروتئینها با استفاده از نرم افزارها و پایگاههای اطلاعاتی مختلف موجود در شبکه جهانی وب است. همه افراد، از پزشکان گرفته تا زیست شناسان مولکولی، با دسترسی به اینترنت و وب سایتهای مربوطه اکنون میتوانند با استفاده از ابزارهای بیوانفورماتیک اصلی، ترکیب مولکولهای بیولوژیکی مانند اسیدهای نوکلئیک و پروتئینها را آزادانه کشف کند. این بدان معنا نیست که دستیابی و تجزیه و تحلیل دادههای ژنومی خام میتواند به راحتی توسط همه انجام شود. اگر به اطلاعات بیشتری برای یادگیری بیوانفورماتیک نیاز دارید، میتوانید از مجموعه آموزش بیوانفورماتیک فرادرس استفاده کنید.
بیوانفورماتیک یک رشته در حال تکامل است و اکنون متخصصان بیوانفورماتیک از برنامههای نرم افزاری پیچیدهای برای بازیابی، مرتب سازی، تجزیه و تحلیل، پیش بینی و ذخیره دادههای توالی DNA و پروتئین استفاده میکنند. بنگاههای تجاری بزرگ مانند شرکتهای دارویی برای انجام و حفظ نیازهای بیوانفورماتیک مقیاس بزرگ و پیچیده این صنایع، از بیوانفورماتیک استفاده میکنند. با افزایش نیاز روز افزون به ورودی مداوم از متخصصان بیوانفورماتیک، اکثر آزمایشگاههای زیست پزشکی ممکن است به زودی متخصص بیوانفورماتیک داخلی خود را داشته باشند.
یک بیوانفورماتیست به تنهایی، فراتر از فراگیری اولیه و تجزیه و تحلیل دادههای ساده، مطمئناً برای هر تجزیه و تحلیل پیچیدهای به مشاوره بیوانفورماتیک خارجی نیاز دارد. رشد بیوانفورماتیک با ایجاد شبکههای رایانهای امکان دسترسی آسان به دادههای بیولوژیکی و امکان توسعه برنامههای نرم افزاری برای تجزیه و تحلیل بی دردسر را فراهم کرده است. چندین پروژه بین المللی با هدف ارائه پایگاه دادههای ژنی و پروتئینی از طریق اینترنت به طور رایگان در دسترس کل جامعه علمی است. ابزارهای بیوانفورماتیکی مختلفی برای اهداف متفاوت گسترش یافتهاند که در ادامه به بررسی برخی از این اهدف پرداختهایم.
- تحلیل توالی. «تجزیه و تحلیل توالی» (Sequence analysis) قرار دادن RNA، توالی پپتید و DNA به انواع مختلف روشهای تحلیلی است. این کار برای شناسایی منشا، تکامل و ساختار پایگاههای اطلاعاتی بیولوژیکی انجام میشود.
- مدل سازی مولکولی. «مدل سازی مولکولی» (Molecular modelling) از روشهای محاسباتی و نظری برای تجزیه و تحلیل رفتار مولکولها استفاده میکند. بهترین ابزارهای بیوانفورماتیک با منبع باز و رایگان از روش شبیه سازی برای انجام مدل سازی مولکولی استفاده میکنند.
- دینامیک مولکولی. کاربرد «دینامیک مولکولی» (Molecular dynamics) در بیوانفورماتیک در تعیین حرکت فیزیکی اتمها مهم است. این روش برای محیطهای سلول مانند در زمینه بیوانفورماتیکِ ساختاری مهم است. اندازه گیریهای استفاده شده در این روشها شامل نظریههای نمودار، روابط پویای بین مولکولی و بررسی پاسخ آشفتگی اتمها و مولکولها است.
- FASTA در بیوانفورماتیک. FASTA قالبی است که ماهیت آن متن محور است و برای نشان دادن توالی پپتید و نوکلئوتید استفاده میشود. بستههای نرم افزاری FASTA برای ابزارهای بیوانفورماتیک و برای تعیین توالی ترازهای پروتئین و DNA کمک می کنند.
- تجزیه و تحلیل فیلوژنتیک در بیوانفورماتیک. «تجزیه و تحلیل فیلوژنتیک» (Phylogenetic analysis) توسط ابزارهای بیوانفورماتیک نمودارهای شاخهای را برای نشان دادن رابطه یا تاریخچه تکاملی بین ارگانیسمهای گونههای مختلف فراهم میکند. این نمودارهای شاخهای درختان فیلوژنتیک نامیده میشوند و به شناسایی خصوصیاتی مانند ژنها، اندامها و پروتئینها در ارگانیسمها کمک میکنند.
- پایگاههای اطلاعاتی بیولوژیک در بیوانفورماتیک. «پایگاه دادههای بیولوژیک» (Biological databases) در بیوانفورماتیک را میتوان با تجزیه و تحلیل سه دسته موجود، درک کرد. این سه گروه عبارتند از: عملکرد، ساختار و توالی. توالی پروتئین و اسید نوکلئیک در پایگاه داده توالی ذخیره میشود در حالی که پروتئین و RNA در پایگاه دادههای ساختاری وجود دارند. نقش فیزیولوژیکی محصولات ژنی توسط پایگاههای داده عملکردی فراهم میشود.
ابزارهای مختلف بیوانفورماتیکی شامل پایگاههای داده و همچنین نرمافزارهای رایگان و پولی مختلفی هستند که افراد بسته به نیاز خود از آنها استفاده میکنند. بسیاری از پایگاههای داده بزرگ در دنیا تمامی اطلاعات خود را به صورت رایگان در اختیار کاربران و پژوهشگران قرار میدهند و به این ترتیب اطلاعات جدید دیگری مانند انواع توالیهای جدید شناسایی شده به اطلاعات ذخیره شده آنها اضافه خواهد شد. در ادامه مثالهایی از هر کدام را که در حال حاضر وجود دارند ارائه میدهیم.
پایگاه های داده
پایگاههای داده برای تحقیقات و کاربردهای بیوانفورماتیک، ضروری هستند. بسیاری از پایگاههای دادهای وجود دارند که انواع مختلفی از اطلاعات را در بر میگیرند به عنوان مثال، توالی DNA و پروتئین، ساختارهای مولکولی، فنوتیپها و اطلاعات تنوعهای زیستی. پایگاههای اطلاعاتی ممکن است حاوی دادههای تجربی (مستقیماً از آزمایشات بدست آمده)، دادههای پیش بینی شده (حاصل از تجزیه و تحلیل) یا هر دو باشد. این اطلاعات ممکن است مخصوص ارگانیسم، مسیر یا مولکول مورد علاقه خاص باشند یا آنها میتوانند دادههای جمع آوری شده از چندین پایگاه داده دیگر را ترکیب کنند. این پایگاههای داده از نظر قالب، سازوکار دسترسی و عمومی بودن یا نبودن متفاوت هستند. برخی از پایگاههای اطلاعاتی که معمولاً مورد استفاده قرار میگیرند در ادامه توضیح داده شده اند.
- پایگاههای داده مورد استفاده در تجزیه و تحلیل توالی بیولوژیکی: Genbank ، UniProt.
- پایگاههای داده مورد استفاده در تجزیه و تحلیل ساختار: بانک داده پروتئین یا PDB.
- پایگاههای داده مورد استفاده در یافتن خانوادههای پروتئینی و یافتن موتیفهای (ساختارهای ثانویه) پروتئینی: InterPro ، Pfam.
- پایگاههای دادهای که برای تعیین توالی نسل بعدی استفاده میشوند: «بایگانی توالیهای خواندنی» (Sequence Read Archive).
- پایگاههای دادهای مورد استفاده در تجزیه و تحلیل شبکه: پایگاه دادههای متابولیک (KEGG ، BioCyc)، پایگاههای تجزیه و تحلیل تعاملات و برهم کنشها، شبکههای عملکردی.
- پایگاههای دادهای مورد استفاده در طراحی مدارهای ژنتیکی مصنوعی: GenoCAD.
نرم افزارهای بیوانفورماتیک
نرم افزارهای بیوانفورماتیک از ابزارهای پیرو خط فرمان کوتاه، تا برنامههای گرافیکی پیچیدهتر متفاوت هستند. این نرمافزارها شامل انواع رایگان و نیازمند پرداخت هزینه و همچنین نرم افزارهای تحت وب هستند که هر کدام کاربردهای مختلفی بر عهده دارند. در ادامه به همه آنها پرداختهایم.
نرم افزارهای منبع باز
بسیاری از ابزارهای نرم افزاری رایگان و با منبع آزاد از دهه 1980 تاکنون وجود داشته و در حال رشد هستند. ترکیبی از نیاز مستمر به الگوریتم های جدید برای تجزیه و تحلیل انواع نوظهور بازخوانیهای بیولوژیکی، پتانسیل ابتکاری در آزمایشات «درون رایانهای» (In Silico) و پایگاههای «کد - باز» (Open - Code) در دسترس که به ایجاد فرصت برای همه گروههای تحقیقاتی کمک کردهاند تا صرف نظر از تمهیدات مالی آنها هم به بیوانفورماتیک و هم به دامنه نرم افزار منبع باز موجود کمک کنند. ابزارهای رایگان اغلب به عنوان پرورشدهنده ایدهها یا پلاگینهای پشتیبانی شده توسط جامعه در نرمافزارهای تجاری عمل میکنند. طیف وسیعی از بستههای نرم افزاری رایگان شامل موارد زیر هستند.
- Bioconductor. یک پروژه نرم افزاری توسعه یافته و رایگان برای تجزیه و تحلیل و درک دادههای ژنومی تولید شده توسط تستهای آزمایشگاهی در زیست شناسی مولکولی است. Bioconductor بر اساس زبان آماری برنامه نویسی R استوار است، اما حاوی سایر زبانهای برنامه نویسی دیگر نیز است.
- BioPerl. یک پروژه نرم افزاری فعال است که توسط بنیاد Open Bioinformatics پشتیبانی میشود. از این پایگاه برای رفع اشکالات موجود در پروژه توالییابی ژنوم انسان استفاده شد.
- Biopython. پروژه Biopython مجموعهای از ابزارهای غیر تجاری Python برای زیست شناسی محاسباتی و بیوانفورماتیک است که توسط یک انجمن بین المللی توسعه دهندگان ایجاد شده است. این ابزار شامل طبقهبندیهایی برای نشان دادن توالیهای بیولوژیکی و حاشیه نویسی توالیها است و قادر به خواندن و نوشتن در انواع قالبهای فایلها است. همچنین این ابزار امکان دستیابی بصورت برنامهای برای راهیابی به پایگاه دادههای آنلاین اطلاعات بیولوژیکی، مانند آنهایی که در NCBI وجود دارد را فراهم میکند.
- BioJava. یک پروژه نرم افزاری است که برای ارائه ابزارهای جاوا برای پردازش دادههای بیولوژیکی اختصاص داده شده است. این ابزار مجموعهای از توابع کتابخانهای است که در زبان برنامه نویسی جاوا برای دستکاری توالیها، ساختارهای پروتئینی، سیستم توزیع حاشیه نویسی (DAS)، دسترسی به AceDB، برنامه نویسی پویا و سیستمهای آماری ساده نوشته شده است.
- BioJS. یک پروژه برای دادههای بیوانفورماتیک در وب است، هدف آن توسعه یک کتابخانه منبع باز از اجزای JavaScript برای تجسم دادههای بیولوژیکی است.
- BioRuby. مجموعه ای از کد روبی (یک زبان برنامه نویسی پیشرفته) است که شامل کلاسهایی برای زیست شناسی مولکولی محاسباتی و بیوانفورماتیک است. این ابزار شامل کلاسهایی برای تجزیه و تحلیل توالی DNA و پروتئین، ترازبندی توالی، تجزیه پایگاه داده بیولوژیکی، زیست شناسی ساختاری و سایر کارهای بیوانفورماتیک است.
- Bioclipse. یک پلتفرم بصری مبتنی بر جاوا، منبع باز و بر پایه شیمی و بیوانفورماتیک در بستر نرم افزاری Eclipse Rich Client (RCP) است.
- EMBOSS. یک نرم افزار تجزیه و تحلیل رایگان بوده که برای نیازهای جامعه کاربران زیست شناسی مولکولی و بیوانفورماتیک تهیه شده است. این نرم افزار به طور خودکار با دادهها در قالبهای مختلف کنار میآید و حتی امکان بازیابی شفاف دادههای توالی را از وب فراهم میکند.
- NET Bio. یک کتابخانه بیوانفورماتیک و ژنومیک منبع باز است که برای امکان بارگذاری، ذخیره و تجزیه و تحلیل دادههای بیولوژیکی ایجاد شده است.
- Orange. یک مجموعه ابزار تجسم دادهها، یادگیری ماشین و داده کاوی است. این نرم افزار دارای یک برنامه نویسی بصری front-end برای تجزیه و تحلیل سریع دادههای کیفی و تجسم دادههای تعاملی است.
- UGENE. یک نرم افزار رایانهای برای بیوانفورماتیک بوده که بر روی انواع سیستم عاملها قابل استفاده است. UGENE به زیست شناسان کمک میکند تا دادههای مختلف ژنتیکی بیولوژیک، مانند توالیها، حاشیه نویسیها، ترازبندیهای متعدد، درختان فیلوژنتیک، سرهم بندیهای NGS و موارد دیگر را تجزیه و تحلیل کنند.
- GenoCAD. یکی از اولین ابزارهای طراحی به کمک رایانه برای زیست شناسی مصنوعی است که در طراحی وکتورهای بیانی انتقال ژن، شبکههای مصنوعی ژنی و سایر ساختارهای مورد استفاده در مهندسی ژنتیک کاربرد دارد.
وب سایت های بیوانفورماتیک کدام اند؟
رابطهای مبتنی بر SOAP و REST برای طیف گستردهای از برنامههای بیوانفورماتیک ایجاد شده اند که به یک برنامه در یک کامپیوتر در یک قسمت از جهان اجازه استفاده از الگوریتمها، منابع و دادههای محاسباتی در سرورهای سایر نقاط جهان را میدهد. از مزایای اصلی استفاده از آن، این است که کاربران مجبور نیستند با مسئولین نگهداری نرم افزار و پایگاه داده سر و کار داشته باشند. سرویسهای پایهای بیوانفورماتیک برگرفته از EBI (انستیتوی بیوانفورماتیک اروپا) شامل SSS (خدمات جستجوی توالی)، MSA (ترازبندی توالی چندگانه) و BSA (تجزیه و تحلیل توالی بیولوژیکی) هستند.
در دسترس بودن این منابع بیوانفورماتیکی خدمات دهنده، کاربرد راه حلهای بیوانفورماتیک مبتنی بر وب و از مجموعه ابزارهای مستقل با یک قالب داده مشترک تحت یک رابط مستقل یا مبتنی بر وب، گرفته تا سیستمهای مدیریت گردش کار بیوانفورماتیک توزیع شده و قابل توسعه را نشان میدهد.
بسترهای آموزشی
سیستم عاملهای نرم افزاری طراحی شده برای آموزش مفاهیم و روشهای بیوانفورماتیک شامل «روزالیند» (Rosalind) و دورههای آنلاین ارائه شده از طریق پورتال آموزشی «بیوانفورماتیک انستیتوی سوئیس» (Swiss Institute of Bioinformatics) است. «کارگاههای بیوانفورماتیک کانادایی» (Canadian Bioinformatics Workshops) فیلمها و اسلایدهای مربوط به کارگاههای آموزشی را در وب سایت خود تحت مجوز Creative Commons ارائه میدهند.
پلت فرمهای MOOC (دوره آنلاین با هدف مشارکت نامحدود و دسترسی آزاد از طریق وب) گواهینامههای آنلاین در بیوانفورماتیک و رشتههای مرتبط، از جمله بیوانفورماتیک تخصصی وب سایت Coursera متعلق به دانشگاه سن دیگو ایالت کالیفرنیا ارائه میدهد. یا وب سایت تخصصی علوم دادههای ژنومی دانشگاه جانز هاپکینز و همچنین دانشگاه کالیفرنیای جنوبی که رشتههای بیوانفورماتیک ترجمه را در مقطع ارشد ارائه میدهند. علاوه بر تمام اینها وب سایت آموزشی فرادرس دورههای به روز و بسیار مناسب و با کیفیتی را در حوزه بیوانفورماتیک تولید کرده است که قابل تهیه توسط همه علاقمندان هستند.
کاربرد بیوانفورماتیک چیست؟
بیوانفورماتیک، نه تنها برای تحقیقات اساسی زیست شناسی ژنومی و مولکولی ضروری شده است، بلکه تأثیر زیادی در بسیاری از زمینههای بیوتکنولوژی و علوم زیست پزشکی دارد. بیوانفورماتیک، در زمینههای ژنومیک ساختاری، ژنومیک عملکردی و ژنومیک تغذیهای نقشی حیاتی دارد. به عنوان مثال، برای شناسایی ارتباط بین توالی ژن و بیماریها، برای پیش بینی ساختارهای پروتئینی از توالی اسیدهای آمینه، کمک به طراحی داروها و واکسنهای جدید و متناسب سازی توالی DNA برای بیماران بر اساس توالی DNA (فارماکوژنومیک) آنها استفاده میشود. در ادامه به برخی از مهمترین کاربردهای بیوانفورماتیک و توضیح هر کدام میپردازیم.
کاربرد بیوانفورماتیک در پزشکی
بیوانفورماتیک در پزشکی کاملاً مفید شناخته شده است زیرا تعیین توالی کامل ژنوم انسان به باز شدن سهم ژنتیکی در بسیاری از بیماریها کمک کرده است. کاربردهای آن شامل کشف دارو، واکسن، داروی شخصی، داروهای پیشگیری کننده و ژن درمانی هستند. در ادامه به برخی از کاربردهای مهم بیوانفورماتیک در پزشکی اشاره میکنیم.
کشف داروها و واکسنها
در حال حاضر بیماریهای عفونی قاتل اصلی کودکان و بزرگسالان در جهان هستند. براساس گزارشات WHO، سالانه بیش از 13 میلیون مرگ و میر ناشی از بیماریهای عفونی رخ میدهند. کشورهای در حال توسعه بیشترین مرگ و میر ناشی از بیماریهای عفونی را ثبت میکنند و این امر به دلیل در دسترس نبودن داروها و هزینههای بالای مربوط به داروها است. یکی از اصلی ترین مشکلات ایجاد شده، تولید داروهای ارزان و کارآمد برای یک بیماری است که میتواند با طراحی دارویی منطقی با استفاده از بیوانفورماتیک حل شود. به علاوه، صنعت داروسازی از روند آزمایش و خطا در کشف دارو به یک طرح دارویی منطقی و مبتنی بر ساختار تبدیل شده است. با یک طراحی فرآیند تولید دارو و انجام موفقیت آمیز و قابل اعتماد آن، میتوان زمان و هزینه تولید عوامل دارویی موثر را کاهش داد. روند شناسایی هدف دارو و غربالگری کاندیدای دارو میتواند تسریع شود و بر اساس مدل سازی و شبیه سازی مولکولی، داروهای ایمن و مؤثرتری تولید شود.
استفاده از بیوانفورماتیک در تحقیقات واکسن و کشف دارو هرگز در مبارزه با بیماریهای عفونی تا کنون انقدر ضروری نبوده است. بزرگترین مبارزه قرن 21 علیه ویروس SARS-CoV-2 (سندرم حاد تنفسی حاد کرونا ویروس 2) ویروس کشف شده در ووهان چین، دسامبر 2019، محققان بسیاری را به استفاده بیسابقه از ابزارهای بیوانفورماتیک در رمزگشایی خصوصیات مولکولی عوامل بیماریزای عفونی تحریک کرده است.
با در دسترس قرار گرفتن اطلاعات ژنوم ویروسی SARS-COV-2 به سختی هفتهها پس از گزارش شیوع این ویروس، سیستم عاملهای بیوانفورماتیک، به ابزاری مهم برای دستیابی به زمان کوتاهتر در مبارزه با بیماری همهگیر تبدیل شده اند. قبل از شیوع، پلتفرمهای مختلفی برای کشف اپی توپهای آنتی ژنی، پیش بینی ساختارهای اتصال دهنده و اتصال آنتی بادی به پروتئین، پپتید و شبیه سازی واکنشهای آنتی ژن و آنتی بادی و موارد دیگر ایجاد شده است که همگی در ساخت سریعتر و بهتر انواع واکسنهای این بیماری نقش داشتند.
پزشکی انفرادی
«پزشکی انفرادی» (Personalized medicine) مدل مراقبتهای بهداشتی است که متناسب با آرایش ژنتیکی منحصر به فرد هر انسان ساخته شده است. مشخصات ژنتیکی بیمار میتواند به پزشک کمک کند تا حساسیت به بیماریهای خاص را پیشبینی کرده، داروی مناسب و با دوز مناسب برای کاهش عوارض جانبی فراهم کند. این روش در تهیه داروهای شخصی سازی شده سرطان، بیماریهای مربوط به دیابت و HIV استفاده میشود. از بیوانفورماتیک در پزشکی فرد محور برای تجزیه و تحلیل دادهها از تعیین توالی ژن یا تجزیه و تحلیل بیان ژن ریزآرایه در جستجوی جهشها یا انواع واریانتهای ژنی که میتوانند در پاسخ بیمار به داروی خاص تأثیر بگذارد یا بیماری را پیشبینی کنند، استفاده میشود.
پزشکی پیشگیرانه
پزشکی پیشگیرانه بر سلامت افراد، جوامع و جمعیتهای تعریف شده تمرکز دارد و از روشهای تحقیقاتی مختلفی از جمله آمار زیستی، بیوانفورماتیک و اپیدمیولوژی برای درک الگوها و دلایل سلامتی و بیماری و تبدیل چنین اطلاعاتی به برنامههایی که برای جلوگیری از بیماری، ناتوانی و مرگ طراحی شده اند، استفاده میکند. یک نمونه از پزشکی پیشگیرانه غربالگری نوزادان بلافاصله پس از تولد برای اختلالات سلامتی، از جمله بیماریهای ژنتیکی یا اختلالات متابولیکی است که قابل درمان هستند اما از نظر بالینی در دوره نوزادی مشهود نیستند. برای ایجاد چنین آزمایشهای غربالگری برای شناسایی بیماری در مراحل اولیه، محققان از ابزارهای بیوانفورماتیک برای تجزیه و تحلیل دادههای ژنومیکس، پروتئومیکس و متابولومیکس برای نشانگرهای زیستی بیماری استفاده میکنند.
ژن درمانی
ژن درمانی روشی است که ژنهای معیوب را با ژنهای عملکردی در سلولهای بیمار جایگزین میکند. ژن درمانی به طور گستردهای مورد استفاده قرار نگرفته است و ایجاد یک روش ژن درمانی عمومی بسیار پیچیده است، زیرا مشخصات ژنتیکی هر فرد متفاوت است. بیوانفورماتیک با در نظر گرفتن مشخصات ژنتیکی افراد میتواند به شناسایی بهترین مکان هدف ژن برای هر فرد کمک کند، این روش میتواند خطر عوارض جانبی ناخواسته را کاهش دهد.
مقاومت آنتی بیوتیکی
دانشمندان در حال بررسی ژنوم «انتروکوکوس فکالیس» (Enterococcus faecalis) عامل اصلی عفونت باکتریایی در بین بیماران بیمارستان هستند. آنها یک منطقه را شناسایی کردهاند که از تعدادی ژن مقاوم در برابر آنتی بیوتیک تشکیل شده است و ممکن است در تبدیل باکتری از یک باکتری رودهای بیخطر به یک مهاجم خطرناک کمک کند. کشف این منطقه که به عنوان یک جزیره بیماری زایی شناخته میشود، میتواند مارکرهای مفیدی برای شناسایی سویههای بیماریزا فراهم کند و به ایجاد کنترل برای جلوگیری از شیوع عفونت در بخشها کمک کند.
سایر کاربردهای بیوانفورماتیک
کاربرد بیوانفورماتیک فقط محدود به حوزه پزشکی نیست. این دامنه گسترده است و به طور مداوم در حال تحول است زیرا مناطق بیشتری در علوم زیستی توسط آن تغییر مییابند. برای فارغ التحصیلان دارای لیسانس بیوتکنولوژی یا بیوانفورماتیک، این شاخه میتواند یک مسیر شغلی پرسود و مهیج باشد. سایر کاربردهای این شاخه از علوم بین رشتهای در ادامه توضیح داده شده اند.
برنامه های کاربردی ژنوم میکروبی
ورود توالیهای ژنوم کامل و پتانسیل آنها برای ارائه بینش بیشتر به دنیای میکروبها و ظرفیتهای آن میتواند پیامدهای گستردهای برای کاربردهای محیطی، بهداشتی، انرژی و صنعتی داشته باشد. به همین دلایل، در سال 1994، وزارت انرژی ایالات متحده (DOE) MGP (پروژه ژنوم میکروبی) را برای تعیین توالی ژنوم باکتریهای مفید در تولید انرژی، پاکسازی محیط زیست، فرآوریهای صنعتی و کاهش ضایعات سمی آغاز کرد. با مطالعه مواد ژنتیکی این ارگانیسمها، دانشمندان میتوانند درک این میکروبها را در سطح بسیار اساسی آغاز کرده و ژنهایی که توانایی منحصر به فرد برای زنده ماندن در شرایط شدید به آنها میدهند را جدا کنند.
کاربرد بیوانفورماتیک در پاکسازی زباله
«داینوکوکوس رادیودورانس» (Deinococcus radiodurans) به عنوان سر سخت ترین باکتری جهان شناخته میشود و مقاومترین موجود در برابر اشعه است. دانشمندان به این ارگانیسم علاقهمند هستند زیرا احتمال استفاده بالقوه از آن در پاکسازی مکانهای زائد حاوی اشعه و مواد شیمیایی سمی وجود دارد.
کاربرد بیوانفورماتیک در مطالعات تغییر اقلیم و تولید انرژی
تصور بر این است که افزایش سطح انتشار دی اکسیدکربن، عمدتا از طریق گسترش استفاده از سوختهای فسیلی برای مصرف انرژی، به تغییرات آب و هوایی در جهان منجر میشود. کشورهای پیشرفته اخیراً برنامهای را برای کاهش سطح دی اکسید کربن جوی آغاز کردهاند. یکی از روشهای انجام این کار مطالعه ژنوم میکروبهایی است که از دی اکسید کربن به عنوان تنها منبع کربن استفاده میکنند. این روش با استفاده از نرمافزارها و پایگاههای داده بیوانفورماتیک امکان پذیر است. علاوه بر این کاربردها دانشمندان در حال مطالعه ژنوم میکروب «کلروبیوم تپیدوم» (Chlorobium tepidum) هستند که ظرفیت غیرمعمولی برای تولید انرژی از نور دارد.
کاربرد بیوانفورماتیک در بیوتکنولوژی
«آرکئون» (Archaeon Archaeoglobus fulgidus) و باکتری «ترموتوگا» (Thermotoga maritima) دارای پتانسیلی برای کاربردهای عملی در صنعت و اصلاح محیط زیست هستند. این میکروارگانیسمها در دمای آب بالاتر از نقطه جوش رشد میکنند و بنابراین ممکن است آنزیمهای پایدار در برابر حرارت برای وزرات انرژی، وزارت دفاع و شرکتهای خصوصی را برای استفاده در فرآیندهای صنعتی فراهم کنند. از دیگر میکروبهای مفید صنعتی میتوان به «کورینه باکتریوم گلوتامیکوم» (Corynebacterium glutamicum) اشاره کرد که از نظر صنعتی به عنوان یک هدف تحقیقاتی بسیار مورد توجه است زیرا توسط صنایع شیمیایی برای تولید بیوتکنولوژیکی اسید آمینه لیزین استفاده میشود.
از این ماده به عنوان منبع پروتئین در تغذیه حیوانات استفاده میشود. لیزین تولید شده در بیوتکنولوژی به خوراک کنسانترهها به عنوان منبع پروتئین اضافه میشود و جایگزینی برای دانههای سویا یا گوشت و عصاره استخوان است.
لاکتوکوکوس لاکتیس یکی از مهمترین میکروارگانیسمهای موجود در صنایع لبنی است. محققان که در حال بررسی ظرفیت لاکتیس برای خدمت به عنوان میزبان تولیدی داروها هستند، پیش بینی میکنند که درک فیزیولوژی و ساختار ژنتیکی این باکتری برای تولیدکنندگان مواد غذایی و همچنین صنایع دارویی بسیار ارزشمند خواهد بود. در تمامی این تحقیقات استفاده از پایگاههای داده بیوانفورماتیک و نرمافزارهای کاربردی آن بسیار مهم هستند. همچنین دانشمندان با استفاده از ابزارهای بیوانفورماتیکِ ژنومی، تفاوت بین سویه باسیلوس آنتراسیس را که در حمله تروریستی تابستان 2001 در فلوریدا مورد استفاده قرار گرفت با سویههای سیاه زخم که از نزدیک مرتبط هستند، تشخیص دادند.
کاربرد بیوانفورماتیک در تولید سلاح بیولوژیک
دانشمندان به تازگی ویروس فلج اطفال را با استفاده از ابزارهای کاملاً مصنوعی ساختهاند. آنها این کار را با استفاده از دادههای ژنومی بیوانفورماتیکِ موجود در اینترنت و مواد موجود در یک منبع شیمیایی از طریق دادههای موجود در یک ایمیل انجام دادند. این تحقیق توسط وزارت دفاع امریکا به عنوان بخشی از برنامه پاسخگویی به جنگ زیستی برای اثبات واقعیت سلاحهای زیستی به دنیا انجام شد که واکنشهای متفاوتی را در پی داشت.
کاربرد بیوانفورماتیک در مطالعات تکاملی
توالییابی ژنوم موجودات از هر سه حوزه، یوکاریوتها، باکتریها و آرکئاها بدان معنی است که میتوان مطالعات تکاملی را در تلاش برای تعیین درخت فیلوژنیک و آخرین جد مشترک جهانی انجام داد. از طریق بیوانفورماتیک میتوان دادههای ژنومی گونههای مختلف را مقایسه و خانوادهها، عملکردها و ویژگیهای آنها را شناسایی کرد.
کاربرد بیوانفورماتیک در بهبود محصول و مواد مغذی آن
بررسی تطبیقی ژنومهای گیاهی نشان داده است که سازمان ژنهای آنها بیش از آنچه تصور میشد در طول زمان تکامل حفظ شده است. این یافتهها نشان میدهد که میتوان از اطلاعات به دست آمده از سیستمهای محصول زراعی برای بهبود سایر محصولات غذایی استفاده کرد. در حال حاضر ژنومهای کامل «آرابیدوبسیس تالیانا» (Arabidopsis thaliana) نوعی شاهی چینی و «اوریزا ساتیوا» (Oryza sativa) نوعی برنج برای انجام تحقیقات اصلاحی در دسترس هستند.
دانشمندان اخیراً موفق شده اند ژنهایی را به داخل برنج انتقال دهند تا سطح ویتامین A، آهن و سایر عناصر ریز مغذی را افزایش دهند. این کار میتواند به ترتیب در کاهش وقوع نابینایی و کم خونی ناشی از کمبود ویتامین A و آهن تأثیر بسزایی داشته باشد. دانشمندان ژنی را از مخمر وارد گوجه فرنگی کرده اند که نتیجه آن گیاهی است که میوه آن بیشتر روی گیاه میماند و در قفسه مغازهها نیز ماندگاری بیشتری دارد.
کاربرد بیوانفورماتیک در مقاومت در برابر حشرات و خشکی
ژنهای باکتری «باسیلوس تورینجنسیس» (Bacillus thuringiensis) که میتوانند تعدادی از آفات جدی را کنترل کنند با موفقیت به پنبه، ذرت و سیب زمینی منتقل شده اند. این توانایی جدید گیاهان جهت مقاومت در برابر حمله حشرات به این معنی است که میتوان از مقدار مناسبی از حشره کشها استفاده کرد و از این رو کیفیت غذایی محصولات افزایش مییابد.
همچنین پیشرفت در تولید انواع غلاتی حاصل شده است که تحمل بیشتری برای قلیایی بودن خاک، سمیت آلومینیوم و آهن آزاد دارند. این ارقام به کشاورزی این امکان را میدهند تا گیاهان در مناطق با خاک فقیر از لحاظ املاح رشد کرده و محصول بدهند، بنابراین این زمینها نیز به پایگاههای تولیدات جهانی اضافه میشوند. همچنین تحقیقات در زمینه تولید انواع محصولاتی که تحمل کاهش آب را دارند قابل انجام است.
کاربرد بیوانفورماتیک در علوم دامپزشکی
پروژههای تعیین توالی بسیاری از حیوانات مزرعه از جمله گاو و گوسفند اکنون به امید درک بهتر زیست شناسی این موجودات در حال انجام است و تأثیرات زیادی در بهبود تولید و سلامت دامها خواهد داشت و در نهایت انسان از مزایای تغذیهای این تغییرات برخوردار است. به علاوه بیوانفورماتیک، تحقیق و تولید واکسنهای دامپزشکی در آینده را پیشرفت داده است زیرا ابزارهای جدیدی را برای شناسایی اهداف واکسن از دادههای بیولوژیکی توالی یابی موجودات فراهم کرده است.
کاربرد بیوانفورماتیک در مطالعات تطبیقی
تجزیه و تحلیل و مقایسه مواد ژنتیکی گونههای مختلف یک روش مهم برای مطالعه عملکرد ژنها، مکانیسم بیماریهای ارثی و تکامل گونهها است. از ابزارهای بیوانفورماتیک میتوان برای مقایسه بین اعداد، مکانها و عملکردهای بیوشیمیایی ژنها در موجودات مختلف استفاده کرد. حجم زیاد توالی DNA موجود برای تجزیه و تحلیل آنها به ابزارهای محاسباتی جدید و قدرتمندی نیاز دارد.
در واقع، تجزیه و تحلیل مقایسهای ژنها و ژنومها میتواند اطلاعات مفیدی در مورد منشا آنها و مکانیسمهای دخیل در تکامل آنها فراهم کند. همچنین زمینه مطالعات ژنومی ویروسی افزایش بی سابقهای در حجم داده را موجب شده است. گونههای جدید ویروسهای شناخته شده دائماً به بانک اطلاعاتی GenBank اضافه میشوند و گونههای کاملاً جدیدی نیز هستند که شباهت چندانی به پایگاه دادههای توالی ما ندارند. علاوه بر این، تکنیکهای متاژنومی این پتانسیل را دارند که تعداد و میزان ژنومهای توالی یافته را بیشتر افزایش دهند.