تجميع النسخ واكتشاف الجينات لـ Cistanche Deserticola Stem-Ⅰ
Sep 06, 2024
الخلفيات
Cistanche deserticola هو نبات طفيلي لا يقوم بالتمثيل الضوئي تمامًا وله قيمة طبية كبيرة ويتم توزيعه بشكل رئيسي في صحراء شمال غرب الصين. يعتبر جذعها اللحمي المجفف منشطًا حاسمًاالطب الصيني التقليديمع أدوار تحسين الوظيفة الجنسية للذكور وتقوية المناعة بشكل رئيسي، ولكن تم إجراء عدد قليل من الدراسات الآلية جزئيًا بسبب نقص الموارد الجينومية والنسخية.

سيستانش توبولوسا الطبيعي الطب الصيني التقليدي PHGS75% ECH 30% ACT 12%
نتائج
في هذه الدراسة، أجرينا تسلسلًا عميقًا للنسخ في الجذع اللحمي لـC. deserticola، وتم إنشاء حوالي 80 مليون قراءة باستخدام التسلسل المزدوج لـ Illumina على منصة HiSeq2000. باستخدام مجمع Trinity، حصلنا على 95,787 تسلسلًا نصيًا بأطوال نصية تتراوح من 200 نقطة أساس إلى 15,698 نقطة أساس، بمتوسط طول يبلغ 950 قاعدة وطول N50 يبلغ 1,519 قاعدة. تم تحديد 63,957 نسخة كما تم التعبير عنها بشكل نشط باستخدام FPKM أكبر من أو يساوي 0.5، حيث تم شرح 30,098 نسخة بأوصاف الجينات أو مصطلحات علم الجينات من خلال تحليلات التشابه التسلسلي ضد العديد من قواعد البيانات العامة (Uniprot، NR، وNt في NCBI، وKEGG) . علاوة على ذلك، حددنا جينات الإنزيم الرئيسية المشاركة في التخليق الحيوي للجنين وجليكوسيدات فينيليثانويد (PhGs) المعروفة بأنها المكونات النشطة الأساسية. تم تحديد أربعة جينات فينيل ألانين أمونيا-لياز (PAL)، وهو الإنزيم الرئيسي الأول في التخليق الحيوي للجنين وPhG بناءً على مقارنة التسلسل وتحليل النشوء والتطور. تم أيضًا اقتراح مسارين للتخليق الحيوي لـ PhGs لأول مرة.
الاستنتاجات
بشكل عام، أكملنا تحليلًا عالميًا لنسخة الجذع اللحمي لـ C. deserticola باستخدام تقنية RNA-seq. تم التعرف على مجموعة من جينات الإنزيم المرتبطة بالتخليق الحيوي للجليكوسيدات اللجنين والفينيليثانويد من النصوص المجمعة والمشروحة، كما تم التنبؤ بعائلة الجينات لـ PAL. ستوفر بيانات التسلسل من هذه الدراسة مورداً قيماً لإجراء أبحاث التخليق الحيوي لجليكوسيدات الفينيليثانويد المستقبلية والدراسات الجينومية الوظيفية في هذا النبات الطبي المهم.
مقدمة
C. deserticola هو جنس عالمي من النباتات الصحراوية المعمرة من عائلة Orobanchaceae وهو نوع لا يقوم بالتمثيل الضوئي تمامًا وعادةً ما ينمو نبات طفيلي هولي تحت الأرض. ويتطفل على جذور نبات الهالوكسيلون أمودندرون (Chenopodiaceae) الذي يسكن بشكل رئيسي الصحاري وشبه الصحاري بسبب قدرته العالية على تحمل الجفاف والملوحة. يظهر C. deserticola مقاومة قوية للظروف البيئية القاسية ويتم توزيعه بشكل رئيسي في شمال غرب الصين، وخاصة في منغوليا الداخلية وقانسو وشينجيانغ. ويعتبر من الأنواع البرية المهددة بالانقراض في السنوات الأخيرة بسبب زيادة استهلاكه من قبل البشر. C. deserticola والذي يُطلق عليه غالبًا الجينسنغ الصحراوي يُعرف عمومًا باسم مكنسة الصحراء وقد تم استخدام الجذع اللحمي المجفف على نطاق واسع كمنشط تقليدي مهم في الصين واليابان لسنوات عديدة. تم تسجيله في البداية في Shen Nong Ben Cao Jing (قاموس المواد الطبية الصينية، 1977) منذ حوالي 1800 عام، وكان يعتبر أحد المصادر الرئيسية لعلم المواد الطبية.عشبة طبية صينية Cistanche.

سيستانش توبولوسا الطبيعي لتحسين الوظيفة الجنسية PHGS75% ECH 30% ACT 12%
تمتلك مستخلصات C. deserticola مجموعة واسعة من الوظائف الطبية، خاصة لاستخدامها في تحسين الوظيفة الجنسية، وتقوية الكلى، وحماية الكبد، والنشاط المحيطي، وتعزيز الذاكرة، والنشاط المناعي، والنشاط المضاد للأكسدة، والنشاط المضاد للالتهابات، والنشاط المضاد للفيروسات، وما إلى ذلك. المكونات النشطة بيولوجيًا الرئيسية لـ C. deserticola هي جليكوسيدات فينيليثانويد (PheGs، PhGs). حتى الآن، تم عزل أكثر من 20 جليكوسيدات فينيلثانويد من الجذع النضر لنبات C.deserticola. فيما بينها،أكتيوسايد وإكيناكوسيدهما مكونان رئيسيان لهما أنشطة دوائية كبيرة وقد تم توثيقهما كمعايير الجودة لـ C. deserticola في دستور الأدوية الصيني (طبعتي 2005 و2010). ثلاثة مكونات كيميائية لـ PhGs هي الحمض العضوي، والسكاريد، والفينيلثانويد، ومع ذلك، فإن التفاصيل المتعلقة بمسارات التخليق الحيوي للفينيلثانويد لا تزال غير مفهومة جيدًا في C.deserticola.
على الرغم من الأهمية التجارية والطبية لـ C.deserticola، إلا أن البيانات الجينومية والنسخية لهذا النوع محدودة للغاية. لا توجد تقنيات بيئية متاحة في قاعدة بيانات NCBI ولا تزال معلومات الجينوم الكاملة لهذا النوع غير متاحة باستثناء تسلسل جينوم البلاستيدات الخضراء. تعيق البيانات النصية المحدودة دراسة آليات التخليق الحيوي PhG. يمكن لتقنية RNA-seq إنشاء تسلسلات للأجزاء المعبر عنها من الجينوم المستهدف وتحديد الجينات [18] باستخدام منصات تكنولوجيا NGS (مثل Applied Biosystems SOLiD وIlllumina HiSeq وRoche 454). لقد أصبح شائعًا بشكل متزايد في تجميع النسخ من جديد، نظرًا لأنه نهج فعال من حيث التكلفة وقوي مع دقة عالية ونطاق ديناميكي واسع، خاصة أنه يتمتع بميزة استكشاف النصوص منخفضة الوفرة. بسبب المزايا المتنوعة، يعد RNA-seq جذابًا بشكل خاص للكائنات غير النموذجية ذات الموارد الجينية المحدودة. ومع ذلك، لا يوجد بحث مفصل عن نسخة C. deserticola بواسطة RNA-seq.
في هذه الدراسة، قمنا بتسلسل النسخة الجذعية لـ C. deserticola عالميًا باستخدام منصة Illumina Hiseq2000 وحصلنا على 7.9 جيجا من البيانات الأولية. من خلال التجميع والتعليق التوضيحي، قمنا باستخراج الجينات المشاركة في التخليق الحيوي لـ PhG والجينات المسؤولة عن التخليق الحيوي لللجنين بالكامل. أنتج تحليل RNA-seq الخاص بنا أول نسخة إجماعية لـ C. deserticola وقدم رؤى جديدة لفهم شامل للقيمة الطبية لـ C. deserticola. بالإضافة إلى ذلك، يمكن تطبيق الطريقة الموضحة هنا على نطاق واسع على النسخ الشخصية لتسهيل اكتشاف الجينات المشاركة في مسارات التخليق الحيوي للمكونات الطبية المحددة في نبات طبي آخر بموارد جينية محدودة للغاية.
المواد والأساليب
جمع المواد النباتية
تم جمع الجذع النضر الطازج لـ C. deserticola في مرحلة التنقيب من قاعدة نباتية في BayanHot City التابعة لـ Alxa League في منغوليا الداخلية في شمال غرب الصين. تم الحصول على تصريح التجميع من المالك (HongKui CongRong Group) لقاعدة المصنع. تم إيداع عينة القسيمة في مرفق الجينوم الأساسي في معهد بكين لعلم الجينوم، بالأكاديمية الصينية للعلوم. بعد التنظيف، تم تقطيع أنسجة الجذع النضرة إلى قطع صغيرة وتم تجميدها على الفور في النيتروجين السائل، ثم تخزينها عند درجة -80 حتى مزيد من المعالجة.
استخراج الحمض النووي الريبي، وبناء مكتبة [كدنا]، وتسلسل Illumina
تم استخراج إجمالي الحمض النووي الريبي (RNA) من الجذع النضر باستخدام TRIzol Reagent (Invitrogen Inc.، California، USA) وفقًا لتعليمات الشركة المصنعة. تمت معالجة العينات الناتجة باستخدام DNase I لإزالة أي DNA الجينومي. تم قياس كمية الحمض النووي الريبي (RNA) المستخرج باستخدام المحلل الحيوي Agilent 2100 (Agilent Technologies) والتحقق من سلامته باستخدام تغيير طبيعة الرحلان الكهربائي لهلام الاغاروز مع تلطيخ بروميد الإيثيديوم. تم استخدام عينات الحمض النووي الريبي (RNA) بنسب A260/A280 بين 1.9 و2.1، ونسب RNA 28S:18S أعلى من 1.0، وأرقام سلامة الحمض النووي الريبي (RINs) -8.5 في التحليلات اللاحقة.
تم إنشاء مكتبات RNA-seq باستخدام مجموعات إعداد عينات Illumina Truseq RNA. تم عزل Poly(A)+ RNA من إجمالي RNA باستخدام خرز Dynal ligo(dT)25 وفقًا لتعليمات الشركة المصنعة. بعد التنقية، تمت إضافة مخزن مؤقت للتجزئة لكسر الرنا المرسال إلى أجزاء قصيرة. تم تصنيع أول حبلا [كدنا] باستخدام هذه الأجزاء القصيرة كقوالب، إلى جانب النسخ العكسي SuperScript III وN6 التمهيدي السداسي العشوائي. تم بعد ذلك تصنيع [كدنا] من النوع الثاني باستخدام المخزن المؤقت، وdNTPs، وRNaseH، وبوليميريز الحمض النووي I. وتعرض [كدنا] الناتج المزدوج الذين تقطعت بهم السبل للإصلاح النهائي باستخدام بوليميريز الحمض النووي T4، وجزء بوليميريز الحمض النووي I كلينو، وكيناز متعدد النوكليوتيد T4، وربطه بـ محولات باستخدام T4 DNA ligase. تمت تنقية الأجزاء المرتبطة بالمحول باستخدام مجموعة استخراج QiaQuick PCR وتم إزالتها باستخدام المخزن المؤقت EB. بعد التحليل باستخدام الاغاروز الكهربائي للهلام، تم اختيار الأجزاء المناسبة كقوالب لتضخيم PCR. تم إجراء تسلسل مكتبة [كدنا] الناتجة باستخدام نظام Illumina HiSeq 2000.
نصوص التجميع الجديد وتقدير التعبير الجيني
تم تنظيف القراءات الأولية الناتجة عن التسلسل عن طريق إزالة تسلسلات المحول (ATCTCGTATGCCGTC) باستخدام طريقة داخلية. قمنا بعد ذلك بعملية تصفية صارمة ومنخفضة الجودة. أولاً، سيتم اقتطاع القواعد ذات درجة جودة الدكتوراه أقل من 20 من نهاية 3'من التسلسل، حتى يتم تشغيلها في قاعدة واحدة ذات جودة أعلى (أكبر من أو تساوي 20). إذا كان طول القراءة أقل من 50 نقطة أساس، فسيتم التخلص منه. ثانيًا، ستتم تصفية القراءات بشكل أكبر وفقًا للمعيار الذي ينص على أن 70% من القواعد في قراءة واحدة لها درجات عالية الجودة (أكبر من أو تساوي 20). ثالثا، تم استخدام القراءات المزدوجة فقط لمزيد من التجميع. تم إجراء تجميع نسخة De novo باستخدام إصدار Trinity _20130216 [30] والذي يتكون من ثلاث وحدات برمجية متتالية: Inchworm، وChrysalis، وButterfly. تم تعيين معلمات التجميع على النحو التالي: -seqType fq-JM 300G -min_contig_ length 200-CPU 20-inchworm_cpu {{21} }بفلاي سي بي يو 20.
لقياس وفرة النص، تمت إعادة محاذاة قراءات نهاية الزوج المتسلسلة مع النصوص المجمعة باستخدام برنامج نصي في Trinity. تم استخدام القراءات المعينة للقياس الكمي بواسطة برنامج RSEM (RNA-Seq بواسطة تعظيم التوقعات). تم تمثيل وفرة الجينات أو الشكل الإسوي من خلال جزء لكل كيلو قاعدة من قيمة النص لكل مليون جزء معين (FPKM)، وتم تعريف تلك النصوص التي لها قيمة FPKM تساوي أو أكبر من 0.05 كما تم التعبير عنها.
شرح وظيفي للنصوص المعبر عنها
لا توجد مجموعات توضيحية لجينات C. deserticola باستثناء جينوم البلاستيدات الخضراء [1]. لقد قمنا بتعليق النصوص المعبر عنها من خلال مقارنتها بمجموعات البيانات المحدثة Genbank Nt وGenbank Nr وTAIR10_ pep_20101214_ بشكل منفصل باستخدام برنامج BLAST (E< = 1e-20). Meanwhile, all expressed transcripts were translated into potential proteins according to ORF prediction by TransDecoder and predicated for the conserved domains based on the Pfam database.
شرح علم الجينات ومسار KEGG من خلال محاذاة التشابه التسلسلي إلى قاعدة بيانات Uniprot (تم الحصول على شرح علم الجينات (GO) لجميع النصوص المجمعة باستخدام ملف اقتران تم تنزيله من (ftp://ftp.ebi.ac.uk/pub/ databases/GO/goa/UNIPROT/gene_association.goa_uniprot.gz). تم إجراء تجميع الجينات المعبر عنها باستخدام نصوص برمجية مخصصة، وقمنا بتعليق الجينات في المستوى الرابع لـ فئات CC وBP وMF بشكل منفصل.
تم تعيين معلومات مسار KEGG لجميع تسلسلات البروتين المتوقعة باستخدام الأداة عبر الإنترنت KAAS (KEGG Automatic Annotation Server) [34]. تم إرسال التسلسلات بتنسيق fasta إلى طلب KAAS، وتم تنزيل الملفات الناتجة لجميع معلومات المسارات المتعلقة بنسخة C. deserticola الجذعية. تم استخدام 13 مجموعة بيانات جينية للكائنات النباتية في KEGG للتعليق التوضيحي باستخدام طريقة BBH (أفضل نتيجة ثنائية الاتجاه).

مستخلص سيستانش توبولوسا سيستانش طبيعي PHGS75% ECH 30% ACT 12%
تحليل RT-qPCR
بعد الهضم باستخدام DNase I، تم تحويل ما يقرب من 5 ميكروغرام من إجمالي الحمض النووي الريبي (RNA) إلى [كدنا] من النوع الأول عبر تفاعل النسخ العكسي مع الاشعال oligo(dT)15 ونظام النسخ العكسي GoScript (Promega). تم بعد ذلك تخفيف منتجات [كدنا] 10- أضعافًا بالماء منزوع الأيونات الخالي من النيوكلاز قبل استخدامها كقالب في PCR في الوقت الفعلي. تم تضخيم cDNAs المحددة بواسطة نظام GoTaq 2-Step RT-qPCR (Promega) في حجم 20 ul. تم إجراء تضخيم PCR عند درجة حرارة الصلب البالغة 60 درجة باستخدام نظام الكشف عن PCR في الوقت الحقيقي 7500 (النظم البيولوجية التطبيقية) وفقًا لتعليمات الشركة المصنعة. تم حساب وفرة النسخ النسبية بواسطة طريقة عتبة الدورة المقارنة مع الجين "comp10579_c0" كمعيار داخلي، باستخدام برنامج 7500 Manager.
تم تصميم أزواج التمهيدي لـ RT-PCR استنادًا إلى البرنامج عبر الإنترنت (http://primer3.ut.ee/) وتم إدراجها في مجموعة بيانات S1.
نتائج
تسلسل الحمض النووي الريبي (RNA) وتجميع نسخة دي نوفو من جذع سمين C. deserticola
تم استخدام جذع C. deserticola على نطاق واسع كمنشط تقليدي مهم في الصين واليابان لسنوات عديدة. للحصول على لمحة عامة عن التعبير الجيني في الجذع اللحمي لـ C. deserticola، قمنا بجمع عينات جذعية لـ C. deserticola من نفس القاعدة النباتية في عامي 2013 و2014، على التوالي. تم استخراج مجموع RNAs وتنقية polyA + RNAs لبناء مكتبات RNA-seq المقترنة. تم الحصول على 79,433,734 و86,019,176 قراءة زوجية تقابل ما يقرب من 8 مليار و8.6 مليار قاعدة من التسلسل باستخدام تسلسل Illumina HiSeq 2000

النظام الأساسي في عينات العام 2013-والعام 2014-(الجدول 1). بعد إزالة تسلسلات المحول وتصفية القراءات منخفضة الجودة (انظر التفاصيل في الطرق)، تم استخدام 64،831،040 قراءة زوجية عالية الجودة في عينة العام 2013- لتجميع نسخة de novo. باستخدام مجمع تسلسل Trinity [30]، تم إنشاء 51719 جينًا و95787 تسلسلًا نصيًا بأطوال نصية تتراوح من 200 نقطة أساس إلى 15698 نقطة أساس. يبلغ متوسط طول النصوص المجمعة 950 قاعدة وطول N50 هو 1,519 قاعدة. كشف عدد النصوص بأطوال مختلفة أن 57.32% من النصوص المجمعة كانت حوالي 500 نقطة أساس أو أكثر (الشكل 1A). تم تعيين قراءات زوجية عالية الجودة في عينة العام 2014- إلى النسخة المجمعة. علاوة على ذلك، وجدنا أن رقم النسخة لكل جين مُجمَّع يختلف وأن 69% من الجينات ذات شكل إسوي واحد معبر عنه بينما 31% من الجينات تعبر عن نسختين أو أكثر (الشكل 1 ب).
تقدير التعبير والتعليق الوظيفي للنصوص المجمعة
تم قياس وفرة الجينات أو النسخ باستخدام حزمة RSEM، حيث تمت إعادة محاذاة القراءات المتسلسلة مع الجينات المجمعة أو تسلسل النصوص باستخدام Bowtie، وتم استخدام تلك القراءات المعينة للقياس الكمي. تم حساب قيمة FPKM لكل جين أو نسخة، وأخيرًا، حددنا 63,957 و52,857 نسخة معبر عنها بشكل نشط (قيمة FPKM أكبر من أو تساوي 0.5) في عينات جذعية سمين من نوع C. deserticola في 2{{17} }13 و2014، على التوالي. تم التعبير عن 44,776 نصًا (70.01% في عينة العام 2013-، و84.71% في عينة العام 2014-) بشكل شائع في التكرارين، وكان الارتباط (معامل ارتباط بيرسون: 0.91979) لبيانات التعبير الخاصة بهم كما هو موضح في الشكل S1. تم تحميل البيانات الأولية التسلسلية إلى قاعدة بيانات NCBI SRA (أرقام الانضمام: SRX857402 وSRX858938). استخدمنا الجينات المعبر عنها والتي تم تحديدها في عينة العام 2013- لمزيد من التحليل. تم الحصول على معلومات الشرح الوظيفية لجميع النصوص المعبر عنها باستخدام طريقتين. أولاً، تمت محاذاة جميع النصوص المعبر عنها مع قواعد بيانات النوكليوتيدات المعروفة (GenBank nt) وتسلسل الببتيد (GenBank nr وArabidopsis peptide) بشكل منفصل بواسطة خوارزمية BLAST. من أصل 63,957 نسخة معبرة،

تمت إضافة تعليقات توضيحية لـ 29,220 (45.7%) وأظهروا تماثلًا للتسلسلات في أي من قواعد بيانات الموضوعات الثلاثة مع قطع القيمة E 1e-20. وفي الوقت نفسه، تم التنبؤ بمناطق الترميز المرشحة لجميع تسلسلات النسخ المعبر عنها باستخدام برنامج TransDecoder، وتم استخدام أطول ORFs لكل نسخة للبحث في مجال Pfam. ونتيجة لذلك، تم شرح 21358 (33.4٪) من النصوص بناءً على قاعدة بيانات Pfam. بشكل عام، تمت مطابقة 30098 (47.1٪) من النصوص بشكل كبير مع الجينات المعروفة في قواعد البيانات العامة من خلال الجمع بين الطريقتين أعلاه. تم عرض قائمة النصوص المعبر عنها الكاملة مع التعليق التوضيحي للوظيفة في البيانات التكميلية (مجموعة بيانات S2).
قمنا بمسح أفضل 20 نسخة تم التعبير عنها بشكل كبير (الجدول 2) والتي تقابل 18.99% من جميع قراءات التسلسل، ووجدنا أن معظمها عبارة عن جينات تستجيب للعوامل اللاأحيائية.

تحفيز التوتر. يعد الديهيدرين (DHNs)، وهو فئة من بروتينات الإجهاد المحبة للماء والقابلة للحرارة والتي تحتوي على عدد كبير من الأحماض الأمينية المشحونة التي تنتمي إلى عائلة وفرة التولد المتأخر من المجموعة الثانية (LEA)، هو الجين الأكثر تعبيرًا. تم اكتشاف ثلاثة نصوص ديهيرين مختلفة (comp28713_c0_seq1/2/4) كما تم التعبير عنها بشكل كبير في السيقان اللحمية والتي قد تكون متورطة في حماية الخلايا من التلف الناجم عن إجهاد الجفاف. تم العثور أيضًا على جينات أخرى مرتبطة بالإجهاد مثل بروتين الصدمة الحرارية، والبروتين المرتبط بالعوامل الممرضة، والميتالوثيونين بشكل كبير، والتي قد تكون مرتبطة ببيئة البقاء الشديدة. بالإضافة إلى ذلك، بعض الجينات التأسيسية بما في ذلك جين RNA الريباسي 26S (comp22329_c2_seq1)، البروتين المرتبط بالأوكسين/السكون (comp20999_c0_seq1)، تم أيضًا نسخ عامل الريبوزيل ADP (comp20499_ c0_seq1) بشكل كبير.

سيستانش توبولوسا الطبيعي لتحسين المناعة PHGS75% ECH 30% ACT 12%







