مقدمه ای بر بیوانفورماتیک

بیوانفورماتیک چیست؟ بیوانفورماتیک علمی میان رشتهای بین علوم کامپیوتر و علوم زیستی است. در این علم از علوم کامپیوتر بهمنظور ذخیره، استخراج یا بازیابی، دستکاری و توضیح اطلاعات مربوط به مولکولهای زیستی (DNA، RNA و پروتئین) استفاده میشود.
NIH یک تعریف دقیق تری از این علم ارائه کرده است:
“تحقیق و توسعه یا کاربرد علوم و ابزار های کامپیوتری در گسترش استفاده از داده های زیستی و پزشکی که شامل ذخیره داده ها و سازماندهی و آنالیز و تجسم داده ها می شود.”
اولین پروژه بیوانفورماتیکی توسط فردی به نام مارگارت دیهاف در سال 1960 انجام شده است که اولین دیتابیس توالی پروتئینی را ایجاد کرد که نام آن atlas of protein sequence and structure است.
در سال 1970 بانک اطلاعات پروتئین به نام PDB شکل گرفت که ساختار سه بعدی پروتئین را بایگانی میکردند. در آن زمان ساختارفقط 7 پروتئین قرار داشت.
اهداف بیوانفورماتیک:
ما برای درک بهتر از سلول زنده و شناخت بهتر از عملکردهای سلولی در سطح مولکولی، نیاز به بیوانفورماتیک داریم. بدین صورت که با استفاده از آنالیز دادههای خام توالی نوکلئوتیدها و ساختار مولکولها میتوان به درک بهتر از عملکرد سلول زنده رسید.
کاربرد بیوانفورماتیک:
علاوه بر این که بیوانفورماتیک در تحقیقات پایهای زیست شناسی کاربرد دارد؛ در صنعت داروسازی برای تولید و تهیه دارو، در آزمایشات تشخیص پزشکی برای مشخص کردن پاتوژنیک بودن یا نبودن واریانت مد نظر و همچنین در بیوتکنولوژی کشاورزی نیز کاربرد دارد.

محدودیتهای بیوانفورماتیک:
- هرگز نمیتواند جای تحقیقات آزمایشگاهی را بگیرد بلکه آنها مکمل هم هستند و باید باهم انجام شوند.
- پیش بینیهایی که در بیوانفورماتیک انجام میدهیم به کیفیت دادههای خامی که در آزمایشگاه به دست میآیند بستگی دارد.
دیتابیسها و پایگاههای دادهای زیستی:
یکی از چالش ها در بیوانفورماتیک ذخیره و مدیریت داده های زیادی است که وجود دارد.
دیتابیس منبع اطلاعات و پایگاه داده است و آرشیوی کامپیوتری برای ذخیره و سازماندهی دادههاست بهطوری که بهراحتی از طریق جستجو قابل استخراج باشند.
هدف اصلی هر دیتابیس، استخراج دیتا است ولی دیتابیسهای زیستی هدف مهمتری تحت عنوان knowledge discovery دارد؛ یعنی ارتباط بین دادههایی که وارد دیتابیس شده و از قبل با آن ها آشنایی نداریم را نیز میخواهیم پیدا کنیم. این دیتابیسها از نرم افزار و سخت افزارهای کامپیوتری برای مدیریت دادهها و اطلاعات تشکیل شده اند.
دیتابیسهای زیستی براساس محتوا به سه بخش تقسیم می شوند:
- Primary databases یا پایگاه های داده اولیه
- Secondary databases یا پایگاه های داده ثانویه
- Specialized databases یا پایگاه های داده اختصاصی
Primary databases:
پایگاههای داده اولیه شامل دادههای تجربی به دست آمده از آزمایشگاه از قبل توالی نوکلئوتیدی، پروتئنی یا ساختار ماکرومولکولی است. نتایج تجربی مستقیما توسط محققان در پایگاه داده submit میشوند؛ به همین جهت داده ها ماهیت آرشیوی دارند. وقتی یک accession number به پایگاه داده، داده میشود، داده در پایگاه داده اولیه به هیچ عنوان تغییر نمیکنند. این دادهها در پایگاههای داده بخشی از یک گزارش یا record علمی را تشکیل میدهند.
Primary databases برای توالی های نوکلئیک اسید:
- genbank: در سال 1984 ساخته شده و جزئی از NCBI هست.
- ENA (European Nucleotide Archive): جزئی از EBI (EMBL) هستش. EMBL مخفف کلمه European Molecular Biology Laboratory میباشد.
- DDBJ (DNA data bank of japan)
هر سه دیتابیس بهصورت رایگان در دسترس هستند و هر روز نیز بهروزرسانی میشود. این سه دیتا بیس دادههای خود را نیز به اشتراک میگذارند.
Primary databases برای پروتئین:
PDB (Protein Data Bank): ساختار سه بعدیهای پروتئینها و ماکرومولکولها را در خود دارد.
قبل از پرداختن به دسته بعدی دیتابیسها لازم است شما را با یک اصطلاح به نام Annotation آشنا کنیم. به شرحی که برای دیتا نوشته میشود annotation گفته میشود. مثلا annotation یک فرد شامل، محل زندگی، محل تولدش، تاریخ تولدش، مقطع تحصیلی، رشته و… گفته میشود.
Annotationهای تخصصی در دیتابیس ها شامل، ساختار، عملکرد، جایگاه فعال، کوفاکتورها، مودیفیکشنهایی که پس از ترجمه هستن چیان، مسیرهای متابولیسمی، اینکه پروتئین بیماریزاست یا نه می باشند.

Secondary databases:
پایگاه های داده ثانویه شامل دادههایی است که از پزدازش و نتایج تجزیه و تحلیل دادههای اولیه به دست میآید. این پایگاه های داده اغلب از اطلاعات منابع متعدد مانند پایگاههای اطلاعاتی دگیر (اولیه و ثانویه) استفاده میکنند. این دادهها کاملا مدیریت شده هستند و اغلب از ترکیب پیچیدهای از الگوریتمهای محاسباتی و آنالیز و تفسیر دستی برای استخراج new knowledge از public record of science استفاده میکنند.
پایگاههای اطلاعاتی ثانویه در طول یک دهه گذشته به کتابخانه مرجع زیستشناسی مولکولی تبدیل شدهاند و اطلاعات زیادی را در مورد هر ژن یا محصول ژنی که توسط جامعه تحقیقاتی بررسی شده است، ارائه میدهند. پتانسیل استخراج این اطلاعات برای اکتشافات جدید بسیار زیاد است. این پایگاه های داده هزینه و انرژی که محققان صرف می کنند کم می کنند تا بتوانند با کمک این منابع به تحقیقاتشان بپردازند.
Annotationهای عملکردی نیز جز این دسته از دیتابیس ها هستند. در دیتابیس اولیه نیز Annotation هست اما این Annotation خیلی کم است و کامل نیست.
در ادامه به معرفی چند Secondary database می پردازیم:
- PIR (Protein Information Resource)
- swiss prot
- TrEMBL: دیتا بیسی است از ترجمه توالی اسیدنوکلئیک که توی EMBL ذخیره میشود. swiss prot ترجمه توالی را از این دیتابیس میگیرد.
- Uniprot: تلفیقی از تمام دیتابیسهای مربوط به پروتئینها است. تلفیقی از PIR، swiss prot و TrEMBL میباشد. در این دیتابیس لینک به PDBهم وجود دارد.
specialized database:
پایگاه های اطلاعاتی اختصاصی مجموعه ای از اطلاعات متمرکز و تخصصی در یک یا چند زمینه مطالعاتی خاص هستند. این اطلاعات یا داده ها بهگونه ای مرتب یا فهرست بندی میشوند که محقق بتواند آن ها را به سرعت و به راحتی پیدا و بازیابی کند. مانند دیتابیس flybase که اختصاصی مگس سرکه است.
مشکلات و معایب دیتابیسهای زیستی چیست؟
مشکل اول: در دیتابیسهای اولیه خطا وجود دارد. خطا در تعیین توالی است که این موضوع بر میگردد به قبل از سال 1990 که در آن زمان توانایی انجام توالی یابی سنگر وجود نداشت. در عوض روشهای قدیمی وجود داشته است بدین صورت که ژن را در داخل وکتور قرار میدادند و در نتیجه بخشی از توالی وکتور هم بهعنوان توالی ژن شناسایی میشد و در دیتابیس ثبت میشد.
مشکل دوم: وجود Redundancy و تکرارهای زیاد در این دیتابیسها
مشکل سوم: Annotation ها در دیتابیس های اولیه بعضا ناقص و یا غلط هستند. مثلا توالی های مختلف یک ژن ممکن است با عناوین مختلف ثبت شده باشد. یا بالعکس، ژنها غیر مرتبط هستند و باهم یک اسم دارند. علت این مشکل هم این است که محققین باهم توافق نظر ندارند.
به عبارتی دیگر خطای موجود در دیتابیس اولیه باعث بروز خطا در دیتابیس ثانویه میشود.
دیدگاهتان را بنویسید