أداء خوارزميات التعلم الآلي للتنبؤ بالتقدم إلى الخرف في مرضى عيادة الذاكرة

Mar 25, 2022

للمزيد من المعلومات:ali.ma@wecistanche.com


الملخص

أهمية

يمكن استخدام خوارزميات التعلم الآلي كأساس لمساعدات اتخاذ القرار السريري لتعزيز الممارسة السريرية.

هدف

لتقييم قدرة خوارزميات التعلم الآلي على التنبؤ بحدوث الخرف في غضون عامين مقارنة بالنماذج الحالية وتحديد النهج التحليلي الأمثل وعدد المتغيرات المطلوبة.

التصميم والإعداد والمشاركين

استخدمت هذه الدراسة التنبؤية بيانات من مجموعة محتمَلة من 15 307 مشاركين غير مصابين بالخرف في الأساس لإجراء تحليل ثانوي للعوامل التي يمكن استخدامها للتنبؤ بحدوث الخرف. حضر المشاركون المركز الوطني لتنسيق مرض الزهايمرذاكرةعيادات في جميع أنحاء الولايات المتحدة بين عامي 2005 و 2015. أجريت التحليلات من مارس إلى مايو 2021. التعرض 258 متغيرًا تشمل مجالات التدابير السريرية وعوامل الخطر المرتبطة بالخرف.

النتائج والتدابير الرئيسية

كانت النتيجة الرئيسية هي الخرف لجميع الأسباب الحادث الذي تم تشخيصه في غضون عامين من تقييم خط الأساس.



شارلوت جيمس ، دكتوراه ؛ جانيس إم رانسون ، دكتوراه ؛ ريتشارد إيفرسون ، دكتوراه ؛ ديفيد جيه لويلين ، دكتوراه


النتائج

في عينة من {0} من المشاركين (متوسط ​​العمر [SD] ، 72.3 [9.8] أعوام ؛ 9129 [6 {{2 0} بالمائة] من النساء و 6178 [4 {{24 }} بالمائة] من الرجال) بدون الخرف في الأساس ، تلقى 1568 (1 0 بالمائة) تشخيصًا للخرف في غضون عامين من التقييم الأولي. مقارنةً بنموذجين حاليين للتنبؤ بمخاطر الخرف (مثل عوامل الخطر القلبية الوعائية ، والشيخوخة ، ونسبة الإصابة بالخرف ، ومؤشر الفحص الموجز للخرف) ، كانت خوارزميات التعلم الآلي متفوقة في التنبؤ بالخرف لجميع الأسباب في غضون عامين. تتمتع خوارزمية الأشجار المعززة بالتدرج بمتوسط ​​دقة إجمالية (SD) تبلغ 92 بالمائة (1 بالمائة) ، وحساسية 0 .45 (0. 05) ، وخصوصية 0.97 (0.01) ، و المنطقة الواقعة تحت منحنى 0.92 (0.01) باستخدام جميع المتغيرات البالغ عددها 258. أظهر التحليل ذو الأهمية المتغيرة أن 6 متغيرات فقط كانت مطلوبة لخوارزميات التعلم الآلي لتحقيق دقة 91 بالمائة ومساحة تحت المنحنى 0.89 على الأقل. حددت خوارزميات التعلم الآلي أيضًا ما يصل إلى 84 في المائة من المشاركين الذين تلقوا تشخيصًا أوليًا للخرف تم عكسه لاحقًا إلى ضعف إدراكي خفيف أو غير معطوب معرفيًا ، مما يشير إلى احتمال خطأ في التشخيص.

الاستنتاجات والأهمية

تشير هذه النتائج إلى أن خوارزميات التعلم الآلي يمكن أن تتنبأ بدقة بالخرف الناتج عن الحوادث في غضون عامين لدى المرضى الذين يتلقون الرعاية في المستشفىذاكرةالعيادات باستخدام 6 متغيرات فقط. يمكن استخدام هذه النتائج لإبلاغ التطوير والتحقق من وسائل صنع القرار فيذاكرةعيادات.

Cistanche effect of memory improvement

انقر لإيقاف DHT للذاكرة

مقدمة

تم تقييم العديد من المرضى في أماكن متخصصة ، مثلذاكرةفي العيادات ، ليس لديهم الخرف عند حضورهم لأول مرة. 1 التمييز بين المرضى الذين يعانون من الخرف في إطار زمني مناسب سريريًا وأولئك الذين لا يزالون خاليين من الخرف أمر مهم ، حيث يمكن استخدام هذه البصيرة لتحديد أولويات المرضى لإجراء فحوصات المتابعة والتدخلات. يمثل تحديد المرضى المعرضين لخطر الإصابة بالخرف تحديًا للأطباء. يتمثل أحد الأساليب في التركيز على أولئك الذين يعانون من ضعف إدراكي خفيف (MCI) عند تقييمهم في البداية ودعوة هؤلاء المرضى للمتابعة. ومع ذلك ، يمكن أن يؤدي هذا إلى تصنيف خاطئ كبير للمرضى غير المستهدفين للمتابعة ولكن الذين يصابون بالخرف والمرضى الذين يتم استهدافهم لمزيد من التحقيقات ولكن لا يصابون بالخرف. لا يتطور معظم مرضى عيادة الذاكرة المصابين بالاختلال المعرفي المعتدل إلى الخرف حتى بعد 10 سنوات ، بمعدل تحويل سنوي قدره 9.6 بالمائة.


قد تُحسِّن أدوات اتخاذ القرار السريرية من قدرة الأطباء على تقدير بداية الخرف. تتوفر وسائل صنع القرار السريرية الحالية لتقدير معدل الإصابة بالخرف على المدى المتوسط ​​والطويل في مجموعات سكانية مختلفة. على سبيل المثال ، تم تصميم عوامل خطر الإصابة بأمراض القلب والأوعية الدموية والشيخوخة وحدوث الخرف (CAIDE) للتنبؤ بخطر الإصابة بالخرف في 20 عامًا للأشخاص في منتصف العمر ، ويهدف مؤشر فحص الخرف الموجز (BDSI) 4 إلى تحديد كبار السن المرضى الذين يستهدفون الفحص المعرفي من خلال تحديد مخاطر الإصابة بالخرف في غضون 6 سنوات. ومع ذلك ، على حد علمنا ، لم يتم تطوير أي مساعدة في اتخاذ القرار السريري للتنبؤ بحدوث الخرف في عيادات الذاكرة خلال فترة سريرية أقصر ذات صلة.

how to improve memory

يتيح التعلم الآلي (ML) الاستفادة من المعلومات من مجموعات البيانات الكبيرة والمعقدة. تم تطبيقه مؤخرًا على تشخيص الخرف والتنبؤ بالمخاطر. 5-9 ومع ذلك ، غالبًا ما تتضمن هذه النماذج معلومات غير متوفرة عادةً في الممارسة السريرية الروتينية ، مثل التصوير العصبي المتقدم والاختبار الجيني والمؤشرات الحيوية للسائل النخاعي ، مما يحد من التطبيق السريري إعدادات متخصصة أو بحثية.


لقد بحثنا فيما إذا كان يمكن استخدام تقنيات تعلم الآلة للتنبؤ بحدوث الخرف على مدار 2- عام باستخدام بيانات عيادة الذاكرة من الولايات المتحدةمرض النسيانمركز التنسيق (NACC). قمنا أيضًا بفحص الحد الأدنى من مجموعة المتغيرات المطلوبة لنماذج ML للوصول إلى الأداء التشخيصي الكامل.

natural herb for memory

طُرق

تلقت دراسة NACC الموافقة الأخلاقية من مجلس المراجعة المؤسسي لكل موقع قبل أن يتمكن من المساهمة بالبيانات ، وقد قدم جميع المشاركين موافقة خطية مستنيرة. اعتُبرت هذه الدراسة التنبؤية معفاة من الموافقة الأخلاقية المؤسسية لأننا استخدمنا بيانات مجهولة الهوية تم جمعها مسبقًا. البيانات المستخدمة في هذه الدراسة متاحة عن طريق طلب البيانات إلى NACC. تم الإبلاغ عن هذه الدراسة وفقًا لإرشادات الإبلاغ الشفافة لنموذج التنبؤ متعدد المتغيرات للتشخيص الفردي أو التشخيص (TRIPOD). تم تحليل البيانات من مارس إلى مايو 2021.

عينة الدراسة

استخدمنا البيانات التي تم جمعها سابقًا من مجموعة البيانات الموحدة NACC (UDS) .10 تحتوي UDS على بيانات جماعية محتملة من المعهد الوطني الأمريكي للشيخوخةمرض النسيانمرضبرنامج المركز للبحث التعاوني متعدد المراكز حولمرض الزهايمرمرض.11 تتكون مجموعة البيانات الخاصة بنا من بيانات عيادة الذاكرة التي تم جمعها بين سبتمبر 2005 وفبراير 2015 من 30مرض الزهايمرمرضالمراكز الموجودة في الولايات المتحدة. تتضمن مجموعة البيانات الخصائص الاجتماعية الديموغرافية للمشاركين والمشاركين المشاركين ، والتاريخ العائلي ، والحالة الوظيفية ، و 12 من الأعراض السلوكية (تم تقييمها باستخدام نتائج استبيان الجرد العصبي النفسي 13) ، ومجموعة الاختبارات العصبية والنفسية ، والتشخيص السريري للخرف NACC ، والمخصص لكل منهمامرض النسيانمرضيستخدم المركز معايير التشخيص السريري المنشورة بناءً على التقييم السريري الموحد UDS. تم نشر تفاصيل معايير التشخيص التي اعتمدها بروتوكول UDS والإرشادات المرتبطة بها سابقًا

improve memory Cistanche tubulosa

استخدمنا إصدارات UDS 1 و 2 ، والتي تتضمن 32 573 حضور عيادة الذاكرة مع تقييم أساسي. على الرغم من أن نماذجنا مصممة للتنبؤ بحدوث الخرف في غضون عامين ، لمراعاة الاختلاف في الوقت بين مواعيد المتابعة ، فقد قمنا بتضمين المتابعة التي حدثت في غضون 29 شهرًا من الزيارة الأولية للتأكد من أن الزيارة كانت إما الأولى أو موعد المتابعة الثاني.

متغير النتيجة

كان متغير النتيجة هو تشخيص الخرف لجميع الأسباب الحادثة في غضون 29 شهرًا (حوالي عامين) من تقييم خط الأساس. وهذا يشمل أنواع الخرف الفرعية ، مثل خرف ألزهايمر ، والخرف مع أجسام ليوي ، والخرف الوعائي ، وأنواع فرعية أخرى نادرة. تم تشخيص خرف ألزهايمر وفقًا لمعايير NINCSD-ADRDA ، وتم تشخيص 16 خرفًا وعائيًا وفقًا لمعايير NINDS-AIREN ، وتم تشخيص 17 خرف أجسام ليوي (LBD) وفقًا للتقرير الثالث للخرف وفقًا لمعايير اتحاد أجسام ليوي ، 18 والخرف الجبهي الصدغي تم تشخيصه وفقًا لمعايير نيري وزملائه في عام 1998

المتنبئون المرشحون

قمنا بتضمين جميع المتغيرات ذات الصلة سريريًا التي تم جمعها أثناء الزيارة الأولية في الإصدارين 1 و 2 من UDS (الجدول الإلكتروني 1 في الملحق). استبعدنا المتغيرات ذات القيم النصية المجانية ، مثل أسماء الأدوية ، والمتغيرات التي كانت ثابتة عبر جميع المشاركين ، مثل رقم الزيارة. تم إنشاء أربعة متغيرات تركيبية للمساعدة في تقييم الأهمية المتغيرة (يجب أن تكون هذه المتغيرات مرتبة منخفضة) ؛ 3 من هذه المتغيرات عبارة عن تباديل لمتغيرات موجودة (1 متغير ثنائي ، 1 متغير فئوي ، 1 متغير رقمي) ، ومتغير واحد تم إنشاؤه عشوائيًا من التوزيع الطبيعي. نتج عن ذلك إجمالي 258 متغيرًا.


تشمل المتغيرات من UDS المدمجة في نماذجنا الخصائص الديموغرافية للمشارك (15 متغيرًا) ، والخصائص الديموغرافية للمشاركين (7 متغيرات) ، وتاريخ العائلة (3 متغيرات) ، والتاريخ الطبي (47 ​​متغيرًا) ، والأدوية (21 متغيرًا) ، والمادية (12 متغيرًا) ) ونتائج الفحص العصبي (4 متغيرات) ، مقياس تصنيف مرض باركنسون الموحد 20 (UDPRS) (28 متغيرًا) ، مقياس تصنيف الخرف السريري (CDR) 21 (8 متغيرات) ، الحالة الوظيفية (10 متغيرات) ، بطارية الاختبار العصبي النفسي (50 متغيرًا) ، مقياس اكتئاب الشيخوخة (17 متغيرًا) ، وتقييم سريري للأعراض (32 متغيرًا). من بين هذه المتغيرات ، كان 239 (93 بالمائة) مفقودًا لمشارك واحد على الأقل ، وكان لدى جميع المشاركين متغير واحد على الأقل مفقود.

تطوير نموذج

قمنا بتنفيذ 4 خوارزميات ML: الانحدار اللوجستي (LR) ، 23 آلة متجه الدعم (SVM) ، 24 الغابة العشوائية (RF) ، 25،26 والأشجار المعززة بالتدرج (XGB) 27 (الطرق الإلكترونية في الملحق). تؤدي هذه الخوارزميات مهمة تصنيف: فهي تحدد ما إذا كان المشارك يقع في الفئة 0 (من المتوقع أن يظل خاليًا من الخرف بعد 29 شهرًا من خط الأساس) أو الفئة 1 (من المتوقع أن يعاني من الخرف الناتج عن الحوادث في غضون 29 شهرًا من خط الأساس). يعتمد التصنيف على المتغيرات المسجلة في أول زيارة (أساسية) لعيادة الذاكرة. لتنفيذ خوارزميات ML ، استخدمنا مكتبة Python sci-kit-Learn (Python Software Foundation) ، 28 مع 5- أضعاف التحقق من الصحة (eMethods في الملحق). تم احتساب القيم المفقودة عن طريق أخذ العينات مع الاستبدال من القيم غير المفقودة. تم تنفيذ جميع عمليات معالجة البيانات وتحليلها في Python الإصدار 3.9 ، والإصدار NumPy 1.19.4 ، وإصدار sci-kit-Learn 0. 24. {28}}.

تحليل احصائي

تقييم النموذج

قمنا بتقييم أداء جميع النماذج من خلال مقارنة دقتها الإجمالية وحساسيتها وخصوصياتها لعتبات القرار المحددة مسبقًا في الأدبيات (النماذج الحالية) أو الحد الأدنى 0. 5 (نماذج ML) ، والتي تزن بالتساوي القيم الإيجابية الزائفة وأخطاء سلبية كاذبة. تم استخدام المنطقة الواقعة تحت منحنى خاصية تشغيل المستقبل (AUC) 29 لتلخيص أداء النموذج على جميع العتبات الممكنة وبالتالي أوزان خطأ التصنيف.

مقارنة مع النماذج الموجودة

يعد BDSI و CAIDE من النماذج الحالية للتنبؤ بمخاطر الخرف التي تحدد للمرضى درجة تمثل خطر الإصابة بالخرف على مدى فترات زمنية أطول. لاشتقاق درجات مخاطر BDSI و CAIDE ، اخترنا المتغيرات من UDS التي تتوافق بشكل وثيق مع المتغيرات المستخدمة سابقًا (eTable 2 في الملحق). تمت مقارنة أداء نماذج ML الخاصة بنا مع أداء BDSI و CAIDE للتنبؤ بحدوث 2- عام من الخرف.

أداء النموذج عبر الأنواع الفرعية للخرف

يمكن أن يكون للخرف مجموعة متنوعة من الأسباب ، تتوافق مع أنواع فرعية مختلفة من الخرف. لتقييم قدرة نماذج ML على تحديد أنواع فرعية مختلفة من الخرف ، قمنا بتقسيم حالات الخرف الحادثة إلى خرف ألزهايمر ، و LBD ، والخرف الوعائي ، وأنواع فرعية أخرى من الخرف. باستخدام هذه الطبقات الأربعة ، قمنا بحساب النسبة المئوية للمشاركين المصنفين بشكل صحيح (معدل إيجابي حقيقي) وقارننا منحنيات ROC لكل نموذج ML.

التحقيق في الاستقرار التشخيصي

من المعروف أن التشخيص السريري للخرف يشمل المرضى الذين تم تشخيصهم بشكل خاطئ في البداية (بشكل فعال أخطاء إيجابية كاذبة وأخطاء سلبية كاذبة) .31 نحن نعرّف الارتداد على أنه عندما تم تشخيص إصابة أحد المشاركين بالخرف لمدة تصل إلى عامين بعد زيارته الأولى لعيادة الذاكرة. وبعد ذلك يتلقى تشخيصًا بعدم وجود خرف (سواء MCI أو الإدراك غير المشوه) في غضون عامين من تشخيص الخرف. استنتاجًا بأن هذه الانتكاسات هي تشخيصات غير مستقرة ومن المحتمل أن تكون نتيجة التشخيص الخاطئ للخرف ، قمنا بالتحقيق في دقة تصنيف نماذج ML في عينة من المشاركين مع الارتداد (الطرق الإلكترونية في الملحق). استخدمنا دالة التوزيع التراكمي (CDF) لمخرجات درجات التصنيف لكل نموذج ML لمقارنة المشاركين مع الارتداد مع المرضى الذين أصيبوا بالخرف والمرضى الذين ظلوا خاليين من الخرف.

نتائج

بعد استبعاد {0} من الحضور بتشخيص الخرف في الأساس ، 4557 من الحاضرين الذين لم يكن لديهم أي بيانات متابعة ، و 573 من الحاضرين الذين خضعوا للمتابعة الأولى بعد أكثر من 29 شهرًا من زيارتهم الأولى ، احتوت العينة التحليلية النهائية على 15 307 مشاركين (متوسط ​​العمر [SD] ، 72.3 [9.8] سنة ؛ 9129 [6 {{31}٪] نساء و 6178 [40 بالمائة] رجال). يتم عرض خصائص العينة في الجدول 1. في غضون عامين من خط الأساس ، تلقى 1568 مشاركًا (10 بالمائة) تشخيصًا للخرف. من بين 1568 مشاركًا تم تشخيص إصابتهم بالخرف ، تم تشخيص 273 (17 بالمائة) بواسطة طبيب واحد ، وتم تشخيص 1216 (78 بالمائة) من خلال لجنة إجماع ؛ بالنسبة لـ 79 مشاركًا (5 بالمائة) ، لم يتم تحديد مصدر التشخيص. مقاييس الأداء الرئيسية التي تقيم القدرة التنبؤية لكل نموذج معطاة في الجدول 2. مقارنة بالنماذج الحالية ، كانت نماذج ML متفوقة في قدرتها على التنبؤ بما إذا كان الفرد سيصاب بالخرف في غضون عامين ، وتفوقت على النماذج الحالية في جميع المقاييس. كان أداء جميع نماذج ML جيدًا بشكل مشابه ، حيث تتمتع XGB بأكبر قوة عند قياسها بالدقة الإجمالية (92 بالمائة) و ​​AUC (متوسط ​​[SD] ، 0.92 [0.01]). يوضح منحنى خاصية تشغيل جهاز الاستقبال لكل نموذج التشابه بين نماذج ML وتفوقها مقارنة بنماذج المخاطر الحالية (الشكل 1).

Sample Characteristics

Performance Measures for the Prediction of Incident All-Cause Dementia Over 2 Years

أداء النموذج عبر الأنواع الفرعية للخرف

لتقييم أداء نموذج ML في أنواع فرعية مختلفة من الخرف ، قمنا بتقسيم السكان إلى 4 أنواع فرعية من الخرف: ألزهايمر الخرف (1285 مشاركًا) ، LBD (82 مشاركًا) ، الخرف الوعائي (21 مشاركًا) ، وأنواع فرعية أخرى من الخرف (180 مشاركًا). كان نموذج LR هو الأفضل في تحديد خرف ألزهايمر وأنواع فرعية أخرى ، حيث صنّف بشكل صحيح 589 مشاركًا (46 بالمائة) مصابين بخرف ألزهايمر و 99 مشاركًا (55 بالمائة) مع أنواع فرعية أخرى. كان أداء نموذج SVM أفضل على المشاركين مع LBD ، حيث قام بتصنيف 40 مشاركًا بشكل صحيح (49 بالمائة). صنفت جميع النماذج بشكل صحيح 7 مشاركين (33 بالمائة) يعانون من الخرف الوعائي. توضح منحنيات خصائص تشغيل جهاز الاستقبال أن أداء جميع الطرز جيدًا بشكل متساوٍ تقريبًا في كل نوع فرعي (الشكل 1 في الملحق).

استقصاء الحد الأدنى لعدد المتغيرات

أحد العوائق المحتملة لاستخدام نهج ML هو العدد الكبير من المتغيرات المعنية. مع زيادة عدد المتغيرات التي يتطلبها النموذج ، يصبح التنفيذ في بيئة سريرية أقل عملية وتضعف قابلية تفسير النموذج. لتقييم عدد المتغيرات التي يتطلبها كل نموذج ML لتحقيق القوة التنبؤية المكافئة لما وجدناه باستخدام جميع المتغيرات البالغ عددها 258 (الجدول 2) ، قمنا بتقييم كيفية اختلاف AUC مع عدد المتغيرات المضمنة في النماذج. على وجه التحديد ، قمنا بتصنيف المتغيرات لكل نموذج عن طريق فرزها بترتيب تنازلي من حيث الأهمية (أي القوة التمييزية لكل متغير وفقًا للخوارزمية ؛ eMethods في الملحق). قمنا لاحقًا بإعادة تدريب كل نموذج بعدد متزايد من المتغيرات ، بدءًا من الأكثر أهمية. وجدنا أن جميع النماذج تتطلب 22 متغيرًا فقط لتحقيق الأداء التشخيصي الذي لا يمكن تمييزه إحصائيًا عن الأداء المتوسط ​​الأمثل (الشكل 2 ؛ الشكل 2 في الملحق). لم تكن المتغيرات التركيبية المضافة لضمان صحة تقييم الأهمية المتغيرة ضمن أفضل 22 متغيرًا لأي نموذج ، مما يعكس حقيقة أنه بعد الوصول إلى الأداء التشخيصي الكامل ، كان هناك القليل من المعلومات لتحديد تصنيف المتغير بقوة.

تحديد عوامل الخطر الرئيسية

من بين أهم 22 متغيرًا لكل نموذج ، كان هناك 5 فقط مشتركة لجميع النماذج (على سبيل المثال ، الحكم السريري لانخفاض الذاكرة ، أو القدرات المعرفية ، أو السلوك ، أو القدرة على إدارة الشؤون ، أو التغييرات الحركية والحركية ؛ حان الوقت لإكمال اختبار صنع المسار الجزء ب ؛ مجلس الإنماء والإعمار: ضعف التوجه ؛ مجلس الإنماء والإعمار: ضعف المنزل والهوايات ؛ ومستوى الاستقلال). من بين المتغيرات المتبقية ، كان هناك زوج واحد 0 له ارتباط أكبر من 0. 7 ، مما يشير إلى أنها كانت متغيرات متشابهة (الجدول الإلكتروني 3 في الملحق). عند حساب هذا الارتباط من خلال تبادل المتغيرات التي كانت مترابطة بشكل كبير ، وجدنا أن هناك 6 متغيرات تنبؤية للغاية (الحكم السريري للانحدار ، والوقت لإكمال اختبار صنع المسار ، الجزء ب ، و 3 مكونات من CDR [التوجه ، والذاكرة ، والمنزل والهوايات ضعف] ، ومستوى الاستقلال) التي كانت شائعة في جميع نماذج ML (الجدول الإلكتروني 4 في الملحق). عند تدريب كل نموذج باستخدام هذه المتغيرات فقط ، وجدنا أنه بالنسبة إلى LR و XGB ، لم يكن هناك انخفاض ملحوظ في أداء التشخيص: باستخدام هذه المجموعة الأساسية المكونة من 6 متغيرات ، كانت هذه النماذج تعني دقة (SD) بنسبة 91 بالمائة (0 في المائة) لـ LR و 91 بالمائة (1 بالمائة) لـ XGB والمتوسط ​​(SD) AUC من 0. 89 (0. 0 1) لـ LR و 0.89 (0.02) لـ XGB (الجدول الإلكتروني 5 في الملحق).

استقرار التشخيص

من بين 1568 مشاركًا تلقوا تشخيصًا للخرف في غضون عامين ، حددنا 13 0 (8 بالمائة) على أنهم يعانون من الارتداد والذين من المحتمل أن يتم تشخيصهم بشكل خاطئ في البداية وبالتالي تم تسميتهم بشكل خاطئ لأغراض تعلم الآلة. لقد وجدنا أنه بينما تم الإبلاغ عن الانتكاسات فقط في 0.8 بالمائة من المشاركين ، إلا أنها تمثل 92 إلى 109 مشاركًا (7 بالمائة -8 بالمائة) من المشاركين الذين تم تصنيفهم بشكل خاطئ ، مع قدر ضئيل من الاختلاف بين النماذج (الجدول 3). كان لنموذج RF أعلى استقرار تشخيصي ، حيث حدد بشكل صحيح 109 من 130 مشاركًا مع الارتداد (84 بالمائة) عن طريق تصنيفهم على النحو المتوقع ليكونوا خاليين من الخرف عند عامين. للتحقيق في الاستقرار التشخيصي لنماذج ML ، قمنا بإزالة المشاركين مع الارتداد أثناء التدريب (eMethods في الملحق). بعد إعادة تدريب النماذج دون الانتكاسات ، وجدنا أن RF حدد 106 مشاركًا تعرضوا لانعكاسات (متوسط ​​[IQR] ، 82 بالمائة [78 بالمائة -82 بالمائة]) ، حدد SVM 93 مشاركًا تعرضوا لانعكاسات (متوسط ​​[IQR] ، حدد 72 بالمائة [69 بالمائة -74 بالمائة]) و LR و XGB على حد سواء 92 مشاركًا تعرضوا لانعكاسات (متوسط ​​[IQR] ، 71 بالمائة [68 بالمائة -75 بالمائة]). تم الحصول على معدل الذكاء IQR من خلال المشاركين الذين عانوا من الارتداد.


Area Under the Curve (AUC) vs the Number of Variables Used for Training for 4 Machine Learning Models

لفهم الفرق بين المشاركين الذين تم تصنيفهم بشكل خاطئ ، والمشاركين الذين يعانون من الارتداد ، والمشاركين الذين أصيبوا بالخرف دون ارتداد ، قمنا بتحليل CDFs لدرجات التصنيف التي تم الحصول عليها من كل نموذج ML. وجدنا أن عشرات المشاركين الذين تم تصنيفهم بشكل خاطئ ، والمشاركين المحددين الذين يعانون من الارتداد ، كانوا مختلفين عن المشاركين الذين أصيبوا بالخرف وأولئك الذين لم يصابوا به (الشكل 3 في الملحق). سقطت CDFs لدرجات التصنيف للمشاركين الذين لم يصابوا بالخرف إلى أقصى يسار كل قطعة ، مما يشير إلى أن نماذج ML أعطت هؤلاء المشاركين احتمالية منخفضة للإصابة بالخرف. على العكس من ذلك ، بالنسبة للمشاركين الذين أصيبوا بالخرف ، سقطت CDFs على يمين المؤامرات: تم تخصيص احتمالية عالية للإصابة بالخرف. بالنسبة لجميع النماذج ، انخفض توزيع الدرجات للمشاركين الذين يعانون من الارتداد إلى يسار ذلك بالنسبة للمشاركين الذين أصيبوا بالفعل بالخرف ، مما يعني أنه تم تقييم المشاركين الذين يعانون من الارتداد على أنهم لديهم احتمالية أقل للإصابة بالخرف وفقًا لهذه النماذج.

مناقشة

في هذه الدراسة النذير ، كانت خوارزميات ML تتمتع بدقة تنبؤية فائقة مقارنةً بـ BDSI و CAIDE في توقع حدوث الخرف في غضون عامين من التقييم الأول لعيادة الذاكرة للمريض. تم تقييم اثنتين من خوارزميات ML لتحقيق دقة بنسبة 91 بالمائة و AUC بقيمة 0 .89 باستخدام 6 متغيرات رئيسية فقط. تشير تحليلات الحساسية إلى أن نماذج ML يمكن أن تصنف بشكل صحيح نسبة عالية من المشاركين الذين عانوا من الارتداد والذين من المحتمل أن يتم تشخيصهم بشكل خاطئ في غضون عامين من زيارتهم الأولية. تتمتع هذه الدراسة بالعديد من نقاط القوة ، بما في ذلك العينة الكبيرة من المرضى المستمدة من عيادات ذاكرة متعددة في جميع أنحاء الولايات المتحدة ، ومجموعة واسعة من تقنيات تعلم الآلة المستخدمة ، والمقارنة مع نماذج المخاطر الحالية ، واستكشاف الاستقرار التشخيصي والتشخيص الخاطئ المحتمل.


ركزت الدراسات السابقة حول استخدام ML للتنبؤ بمخاطر الخرف على التحول من الإدراك غير المشوه إلى خرف ألزهايمر أو MCI ، أو التحويل من MCI إلى خرف ألزهايمر .5 هذه الأساليب أقل فائدة في البيئة السريرية ، لأنها تستبعد أنواع أخرى من الخرف 5،6،8 أو المرضى الذين لم يتأثروا معرفيًا في البداية. 5 تضمنت البيانات المستخدمة في هذه الدراسات فحوصات التصوير المقطعي بالإصدار البوزيتروني ، ومؤشرات حيوية للسائل الدماغي النخاعي ، 8 منها غير متوفرة بشكل شائع في عيادة الذاكرة. تغلبت دراسة أجراها Lin et al6 على ذلك باستخدام بيانات NACC للعثور على مجموعة من 15 متغيرًا سريريًا غير جراحي لتقييم مخاطر التحويل من الإدراك غير المعطل إلى MCI في فترة 4- عام. ومع ذلك ، لا يزال بناء MCI مثيرًا للجدل إلى حد ما ، 32 ، ومعدلات التحويل بين MCI والخرف غالبًا ما تكون منخفضة. نتيجة كل أسباب الخرف.


من بين النماذج الحالية التي تم فحصها في دراستنا ، كان نموذج CAIDE هو الأقل دقة في التنبؤ بمخاطر الخرف على مدى عامين ، وهذا ليس مفاجئًا ، نظرًا لأنه تم تطويره للتنبؤ بخطر الإصابة بالخرف على المدى الطويل لدى البالغين في منتصف العمر على مدى فترة أطول بكثير. فترة متابعة 20 سنة. كان أداء BDSI أفضل من CAIDE ، مما يعكس على الأرجح أنه مصمم للاستخدام في كبار السن على مدى فترة متابعة أكثر اعتدالًا تبلغ 6 سنوات. ومع ذلك ، تفوقت جميع نماذج ML على هذه النماذج الحالية. باستخدام جميع المتغيرات ، كان XGB هو أقوى نهج ML في التنبؤ بالمرضى الذين من المحتمل أن يتم تشخيص إصابتهم بالخرف في غضون عامين ، مما يشير إلى أن الطريقة التي يتم بها تدريب أشجار القرار الجديدة لتصحيح أخطاء الثلاثة الأخيرة تؤدي إلى أداء هامشي يكسب. ومع ذلك ، يبدو أيضًا أن XGB هو النهج الأقل قدرة على تحديد المشاركين الذين عانوا من الارتداد ، أي أولئك الذين تم تشخيصهم مبدئيًا بالخرف في غضون عامين وتم عكس ذلك التشخيص في غضون عامين من التشخيص الأولي.


يمكن تقليل أداء نماذج التعلم الآلي إلى حد كبير عن طريق بيانات التدريب الخاطئة. نفس الضوضاء موجودة في بيانات التحقق .36 وبالتالي ، قد يؤدي ترشيح بيانات التدريب إلى تقليل بيانات إبطال الأداء ، كما هو موجود في هذه الدراسة. ومع ذلك ، عندما يكون مستوى التسمية الخاطئة أقل من 20 في المائة تقريبًا إلى 40 في المائة ، يمكن أن تؤدي إزالة البيانات ذات التسمية الخاطئة إلى تحسين دقة بيانات التحقق من الصحة ، حتى لو كان ذلك يتضمن بيانات مصنفة بشكل خاطئ. بيانات التحقق من الصحة: ​​حتى البيانات القياسية المعيارية تتضمن أخطاء.


كان معدل الارتداد الملحوظ (8 بالمائة) مشابهًا لتلك الموجودة في دراسة عام 2019 استنادًا إلى مجموعة سكانية مختلفة في الولايات المتحدة .31 في دراستنا ، وُجد أن النسبة المئوية للإيجابيات الخاطئة تتفاوت من 7 بالمائة إلى 19 بالمائة ، اعتمادًا على الإدراك. التقييم المستخدم. على حد علمنا ، هذا هو التحليل الأول للتشخيص الخاطئ المحتمل في NACC UDS ويشير إلى أن استخدام ML كوسيلة مساعدة في صنع القرار السريري لديه القدرة على تقليل التشخيص الخاطئ للإيجابيات الخاطئة بنسبة تصل إلى 84 بالمائة. بالنظر إلى أن المرضى الذين يعانون من الارتداد يمثلون خطًا فاصلًا بالمعنى التشخيصي ، من منظور إكلينيكي ، فقد يكون من المعقول أن يتم متابعتهم على أي حال ، نظرًا لوجود أسباب للقلق السريري. وبالتالي ، قد يكون XGB هو أفضل نموذج للمساعدة في اتخاذ القرار السريري. بدلاً من ذلك ، قد يكون نهج المجموعة الذي يقوم بتنبؤات ثانوية حول الاستقرار التشخيصي المحتمل وإمكانية سوء التصنيف أكثر فائدة.

محددات

هذه الدراسة لديها العديد من القيود. أولاً ، تم تطوير كل من CAIDE و BDSI باستخدام مجموعات سكانية مختلفة لتلك المستخدمة في هذه الدراسة. لم يكن لجميع المتغيرات المستخدمة لتطوير هذه النماذج مكافئ دقيق في UDS والذي ربما يكون قد أثر على أدائها في مجموعة البيانات هذه. ثانيًا ، قد تؤدي الطريقة المستخدمة في احتساب البيانات إلى خطأ في التضمين. على وجه التحديد ، يستبدل التضمين جميع القيم المفقودة بقيمة عددية ، ومع ذلك فإن بعض القيم مفقودة بسبب علاقتها بقيمة أخرى ؛ لذلك ، فإن حقيقة أن إحدى القيم مفقودة تكون مفيدة. ومع ذلك ، بينما كان لدى المشاركين متوسط ​​14 بالمائة من البيانات مفقودة ، فإن المتغيرات الرئيسية الستة التي تم تحديدها كانت مفقودة لمتوسط ​​1 بالمائة من المشاركين. ثالثًا ، على الرغم من أن دراستنا استخدمت عينة كبيرة من الحاضرين لعيادة الذاكرة في الولايات المتحدة ، مما يجعل نتائجنا قابلة للتطبيق بشكل كبير في هذا الإعداد ، إلا أن مدى تعميم هذه النتائج على مجموعات سكانية أخرى غير معروف.

الاستنتاجات

وجدت هذه الدراسة التنبؤية أن نماذج ML تفوقت على نماذج التنبؤ بمخاطر الخرف الحالية وقد يكون لديها القدرة على تحسين التنبؤ بالخرف الحادث على مدى عامين في عيادات الذاكرة. ستة عوامل رئيسية لخطر الخرف التي تم تحديدها في هذه الدراسة قد يكون لديها القدرة على تحسين الممارسة السريرية في عيادات الذاكرة إذا تم دمجها في وسائل اتخاذ القرار السريرية المستقبلية.

المراجع

1. Hejl A ، Høgh P ، Waldemar G. حالات يمكن عكسها في 1000 مريض متتالي في عيادة الذاكرة. ياء Neurol Neurosurg الطب النفسي.

2. ميتشل إيه جيه ، شيري فيشكي م. معدل تطور الضعف الإدراكي المعتدل إلى الخرف - تحليل تلوي لـ 41 دراسة أترابية قوية في البداية. اكتا بسيتشياتر سكاند. 2009 ؛ 119 (4): 252-265.

3. بارنز دي ، بيسير أس ، لي أ ، وآخرون. تطوير والتحقق من صحة مؤشر فحص الخرف موجز للرعاية الأولية. خرف الزهايمر. 2014 ؛ 10 (6): 656-665. e1. دوى: 10.1016 / j.jalz.2013.11.006

4. Kivipelto M ، Ngandu T ، Laatikainen T ، Winblad B ، Soininen H ، Tuomilehto J. درجة المخاطر للتنبؤ بخطر الإصابة بالخرف في 20 عامًا بين الأشخاص في منتصف العمر: دراسة طولية قائمة على السكان. لانسيت نيورول. 2006 ؛ 5 (9): 735-741. دوى: 10.1016 / جنوب 1474-4422 (06) 70537-3

5. Cui Y و Liu B و Luo S et al ؛ مبادرة التصوير العصبي لمرض الزهايمر. تحديد التحول من ضعف إدراكي معتدل إلى مرض الزهايمر باستخدام تنبؤات متعددة المتغيرات. بلوس واحد.

6. Lin M ، Gong P ، Yang T ، Ye J ، Albin RL ، Dodge HH. المناهج التحليلية للبيانات الضخمة لمجموعة بيانات NACC: المساعدة في إثراء التجارب قبل السريرية. ألزهايمر ديس أسوك ديسورد. 2018 ؛ 32 (1): 18-27.

7. Park JH و Cho HE و Kim JH وآخرون. تنبؤ التعلم الآلي بحدوث مرض الزهايمر باستخدام بيانات صحية إدارية واسعة النطاق. NPJ Digit Med. 2020 ؛ 3 (1): 46.

8. Zhan Y، Chen K، Wu X، et al؛ مبادرة التصوير العصبي لمرض الزهايمر. تحديد التحول من الإدراك الطبيعي لكبار السن إلى مرض الزهايمر باستخدام آلة ناقلات الدعم متعدد الوسائط J Alzheimers Dis. 2015 ؛ 47 (4): 1057-1067.

9. Burgos N ​​، Colliot O. التعلم الآلي لتصنيف أمراض الدماغ والتنبؤ بها: التطورات الحديثة والتحديات القادمة. العملة Opin Neurol. 2020 ؛ 33 (4): 439-450.

10. بيكلي دي إل ، راموس إم ، لي دبليو ، وآخرون ؛ مراكز مرض الزهايمر NIA. قاعدة بيانات المركز الوطني للتنسيق لمرض الزهايمر (NACC): مجموعة البيانات الموحدة. ألزهايمر ديس أسوك ديسورد. 2007 ؛ 21 (3): 249-258.

11. المعهد الوطني للشيخوخة. مراكز أبحاث مرض الزهايمر. تم الوصول إليه في 21 مايو 2021.

12. Pfeffer RI، Kurosaki TT، Harrah CH Jr، Chance JM، Filos S. قياس الأنشطة الوظيفية لدى كبار السن في المجتمع. ياء جيرونتول. 1982 ؛ 37 (3): 323-329.

13. Kaufer DI، Cummings JL، Ketchel P، et al. التحقق من صحة NPI-Q ، وهو شكل سريري موجز للمخزون العصبي النفسي. ياء Neuropsychiatry Clin Neurosci. 2000 ؛ 12 (2): 233-239.

14. Weintraub S ، Salmon D ، Mercaldo N ، et al. مجموعة البيانات الموحدة لمراكز مرض الزهايمر (UDS): بطارية اختبار علم النفس العصبي. ألزهايمر ديس أسوك ديسورد. 2009 ؛ 23 (2): 91-101.

15. موريس جي سي ، وينتراوب إس ، تشوي إتش سي وآخرون. مجموعة البيانات الموحدة (UDS): المتغيرات السريرية والمعرفية والبيانات الوصفية من مراكز مرض الزهايمر. ألزهايمر ديس أسوك ديسورد. 2006 ؛ 20 (4): 210-216.

16. مكخان جي ، دراخمان د ، فولشتاين إم ، كاتزمان آر ، برايس د ، ستادلان إم. التشخيص السريري لمرض الزهايمر: تقرير مجموعة عمل NINCDS-ADRDA تحت رعاية فريق عمل وزارة الصحة والخدمات الإنسانية حول مرض الزهايمر. علم الأعصاب. 1984 ؛ 34 (7): 939-944.

17. Román GC ، Tatemichi TK ، Erkinjuntti T ، وآخرون. الخرف الوعائي: معايير تشخيصية للدراسات البحثية: تقرير ورشة عمل NINDS-AIREN الدولية. علم الأعصاب. 1993 ؛ 43 (2): 250-260.

18. McKeith IG ، و Dickson DW ، و Lowe J ، وآخرون ؛ كونسورتيوم على DLB. تشخيص وعلاج الخرف مع هيئات ليوي: التقرير الثالث لاتحاد DLB. علم الأعصاب.

19. Neary D ، Snowden JS ، Gustafson L ، et al. تنكس الفص الجبهي الصدغي: إجماع على معايير التشخيص السريري. علم الأعصاب. 1998 ؛ 51 (6): 1546-1554.

20. Martínez-Martín P، Gil-Nagel A، Gracia LM، Gómez JB، Martínez-Sarriés J، Bermejo F؛ المجموعة التعاونية متعددة المراكز. خصائص مقياس تصنيف مرض باركنسون الموحد وهيكله. موف ديسورد. 1994 ؛ 9 (1): 76-83.

21. موريس جي سي. تصنيف الخرف السريري: مقياس تشخيصي ومرحلي موثوق به وصالح للخرف من نوع الزهايمر. Int Psychogeriatr. 1997 ؛ 9 (S1) (ملحق 1): 173-176.

22. Hastie T ، Tibshirani R ، Friedman J. عناصر التعلم الإحصائي: التنقيب في البيانات والاستدلال والتنبؤ. Springer Science & Business Media؛ 2009.

23. Hosmer Jr DW، Lemeshow S، Sturdivant RX. الانحدار اللوجستي التطبيقي. جون وايلي وأولاده ؛ 2013.

24. Cortes C، Vapnik V. دعم شبكات ناقلات. تعلم ماخ. 1995 ؛ 20 (3): 273-97. دوى: 10.1007 / BF00994018

25. بريمان ل. راندوم غابات. تعلم ماخ. 2001 ؛ 45 (1): 5-32. دوى: 10.1023 / أ: 1010933404324

26. Ho TK. غابات قرار عشوائي. في: وقائع المؤتمر الدولي الثالث لتحليل الوثائق والاعتراف بها. IEEE ؛ 1995: 278-282.

27. فريدمان ج. تعزيز التدرج العشوائي. تحليل بيانات الإحصاء الحسابي. 2002 ؛ 38 (4): 367-78.

28. Pedregosa F ، Varoquaux G ، Gramfort A ، وآخرون ، Scikit-Learn: التعلم الآلي في Python. J Mach Learn Res. 2011 ؛ 12: 2825-2830.

29. Krzanowski WJ ، Hand DJ. منحنيات ROC للبيانات المستمرة. مطبعة CRC ؛ 2009.

30. فوسيت ، ت. مقدمة لتحليل ROC. التعرف على الأنماط Lett. 2006 ؛ 27 (8): 861-874. دوى: 10.1016 / ي. باتريك 2005.10.010

31. Ranson JM، Kuźma E، Hamilton W، Muniz-Terrera G، Langa KM، Llewellyn DJ. تنبؤات سوء تصنيف الخرف عند استخدام التقييمات المعرفية الموجزة. نيورول كلين براكت. 2019 ؛ 9 (2): 109-117.

32. Bruscoli M، Lovestone S. هل MCI في الحقيقة مجرد خرف مبكر: مراجعة منهجية لدراسات التحويل. Int Psychogeriatr. 2004 ؛ 16 (2): 129-140.

33. فارياس إس تي ، مونجاس دي ، ريد بي آر ، هارفي دي ، ديكارلي سي. تطور الخلل الإدراكي المعتدل إلى الخرف في العيادات مقابل الأتراب المجتمعي. قوس نيورول. 2009 ؛ 66 (9): 1151-1157.

34. Guan D، Yuan W، Ma T، Khattak AM، Chow F. حذف حساس من حيث التكلفة لبيانات التدريب ذات العلامات الخاطئة. Inf Sci. 2017 ؛ 402: 170-81.

35. Brodley CE، Friedl MA. تحديد بيانات التدريب الخاطئة J Artif Intelligence Res.

36. كوينلان جونيور. تحريض أشجار القرار. تعلم ماخ. 1986 ؛ 1 (1): 81-106.

37. Brodley CE، Friedl MA. تحديد حالات التدريب ذات التسمية الخاطئة والقضاء عليها. في: AAAI '96: وقائع المؤتمر الوطني الثالث عشر للذكاء الاصطناعي. AAAI ؛ 1996: 799-805.

38. Brodley CE، Friedl MA. تحسين الخرائط الآلية للغطاء الأرضي من خلال تحديد الملاحظات الخاطئة من بيانات التدريب وإزالتها. في: IGARSS '96: 1996 الندوة الدولية لعلوم الأرض والاستشعار عن بعد. IEEE ، 1996: 1379-1381.

قد يعجبك ايضا