التنبؤ التصنيفي بسرطان الثدي بناءً على التعلم الآلي

Sep 12, 2023

سرطان الثدي هو أكثر أنواع السرطان شيوعًا وفتكًا في العالم. استنادًا إلى خوارزميات التعلم الآلي مثل XGBoost والغابة العشوائية والانحدار اللوجستي وأقرب جار K، تضع هذه الورقة نماذج مختلفة لتصنيف سرطان الثدي والتنبؤ به، لتوفير مرجع للتشخيص المبكر لسرطان الثدي. يشير الاستدعاء إلى احتمالية اكتشاف الخلايا السرطانية في التشخيص الطبي، وهو أمر ذو أهمية كبيرة لتصنيف سرطان الثدي، لذلك تتخذ هذه المقالة الاستدعاء كمؤشر التقييم الأساسي وتأخذ في الاعتبار الدقة والدقة وتقييم درجة F1- مؤشرات لتقييم ومقارنة تأثير التنبؤ لكل نموذج. وللقضاء على تأثير مفاهيم الأبعاد المختلفة على تأثير النموذج، تم توحيد البيانات.

تعد خوارزمية أقرب جار K واحدة من الخوارزميات الأساسية في مجال التعلم الآلي. فكرتها الرئيسية هي العثور على عينات K الأقرب إلى العينة المستهدفة، ثم التنبؤ بتسمية العينة المستهدفة بناءً على تسميات عينات K هذه. في الحياة اليومية للإنسان، غالبًا ما نستخدم أساليب مماثلة لاتخاذ القرارات. على سبيل المثال، عند مواجهة مشكلة معينة، نتذكر المواقف المشابهة التي واجهناها من قبل، ثم نبحث عن المواقف الأكثر تشابهًا ونتخذ القرارات بناءً على نتائجها. تطوير الحلول. لذلك، ترتبط خوارزمية أقرب جار K ارتباطًا وثيقًا بالذاكرة البشرية.

بادئ ذي بدء، تتطلب خوارزمية K الأقرب إلى الجوار عددًا كبيرًا من مجموعات التدريب لتعلم وإنشاء بنية بيانات لأقرب رسم بياني مجاور. وبالمثل، يحتاج البشر إلى تجربة أشياء مختلفة باستمرار وتخزين هذه التجارب في الذاكرة. فقط من خلال تراكم قدر كبير من الخبرة والمعرفة يمكننا اتخاذ القرارات والأحكام بشكل أكثر دقة.

ثانيًا، تؤكد خوارزمية أقرب جار K على تأثير التشابه على التنبؤ. وبالمثل، عند اتخاذ القرارات، غالبًا ما يأخذ البشر في الاعتبار التجارب السابقة أولاً ويحاولون العثور على تجارب مشابهة للوضع الحالي للرجوع إليها. تعد عملية العثور على أوجه التشابه هذه أيضًا إحدى الخصائص المهمة للذاكرة.

أخيرًا، في خوارزمية أقرب جار لـ K، يكون لقيمة K تأثير كبير على نتائج التنبؤ. ستؤدي قيم K المختلفة إلى نتائج تنبؤ مختلفة. وبالمثل، عندما يتذكر البشر تجاربهم السابقة، فإنهم يحتاجون إلى اختيار نقاط مرجعية وطرق مختلفة اعتمادًا على الوضع الحالي. تعد هذه المرونة والقدرة على التكيف أيضًا من الخصائص المهمة للذاكرة. يمكن ملاحظة أننا بحاجة إلى تحسين ذاكرتنا. يمكن لـ Cistanche deserticola أن يحسن الذاكرة بشكل كبير لأن Cistanche deserticola هي مادة طبية صينية تقليدية لها العديد من التأثيرات الفريدة، أحدها هو تحسين الذاكرة. تأتي فعالية اللحم المفروم من المكونات النشطة المختلفة التي يحتوي عليها، بما في ذلك الأحماض والسكريات والفلافونويد وغيرها. ويمكن لهذه المكونات تعزيز صحة الدماغ بطرق مختلفة.

increase memory power

انقر فوق "معرفة" لتحسين الذاكرة قصيرة المدى

للعثور على المجموعة الفرعية المثالية وتحسين دقة النموذج، تم فحص 15 ميزة كمدخلات للنموذج من خلال اختبار ارتباط بيرسون. يستخدم نموذج الجار الأقرب لـ K طريقة التحقق المتبادل لتحديد قيمة k المثالية باستخدام الاستدعاء كمؤشر تقييم. بالنسبة لمشكلة عدم توازن العينة الإيجابية والسلبية، تم استخدام طريقة أخذ العينات الهرمية لاستخراج مجموعة التدريب ومجموعة الاختبار بشكل متناسب وفقا للفئات المختلفة. تظهر النتائج التجريبية أنه في ظل أقسام مختلفة لمجموعة البيانات (8: 2 و7: 3)، فإن تأثير التنبؤ لنفس النموذج سيكون له تغييرات مختلفة. يوضح التحليل المقارن أن نموذج XGBoost الذي تم إنشاؤه في هذه الورقة (الذي يقسم مجموعة التدريب ومجموعة الاختبار على 8: 2) له تأثيرات أفضل، كما أن درجة الاستدعاء والدقة والدقة وF1- هي 1.{{ 11}}، 0.960، 0.974، و0.980، على التوالي.

1 المقدمة

وفي السنوات العشر الماضية، زادت حالات الإصابة بسرطان الثدي في الصين بنسبة 47%، وتتزايد حالات الإصابة سنة بعد سنة، وتصبح حالات الإصابة بسرطان الثدي أصغر سنا تدريجيا [1]. يرتبط التسبب في سرطان الثدي بالهرمونات الشخصية، وتاريخ العائلة، والزواج، وتاريخ الإنجاب [2]. ليس من السهل اكتشاف سرطان الثدي في مرحلة مبكرة، وله خصائص السن المبكر للظهور ولكن العرض المتأخر [3، 4]. في الوقت الحاضر، يعتمد التشخيص الرئيسي لسرطان الثدي على ثلاث طرق: ثقب الخلايا [5]، والفحص بالموجات فوق الصوتية [6]، والتصوير الشعاعي للثدي بالأشعة السينية [7]. إذا تم اكتشاف إصابة المريضة بسرطان الثدي في وقت مبكر، كلما زادت احتمالية شفاءها وكان التشخيص أفضل. ولذلك فإن الفحص المنتظم والتشخيص المبكر ضروريان للغاية للوقاية من سرطان الثدي والكشف عنه في الوقت المناسب.

وفي المجال الطبي، يمكن أن يساعد إنشاء النماذج من خلال أساليب التعلم الآلي الأطباء في تحسين معدل اكتشاف السرطان، لتحقيق غرض الكشف المبكر والعلاج المبكر. أسفرت أساليب التعلم الآلي عن نتائج جيدة في تشخيص السرطان [8، 9]. وو وآخرون. [10] لاحظ شكل الخلية تحت المجهر ووجد أن هناك اختلافات واضحة بين خلايا سرطان الثدي ومعلمات الخلايا السليمة الطبيعية. توفر هذه النتيجة أساسًا نظريًا للعديد من الدراسات. على الرغم من وجود العديد من أساليب التعلم الآلي المطبقة حاليًا على تصنيف خلايا سرطان الثدي، إلا أنه لا يمكن تطبيق خوارزمية واحدة على جميع المشكلات. كل نوع من خوارزميات التعلم الآلي له مجالات خبرته، وبالتالي فإن اختيار الخوارزمية يختلف باختلاف السيناريوهات.

شين وآخرون. [11] استخدم نموذج XGBoost لتصنيف سرطان الثدي والتنبؤ به، ووصلت الدقة إلى 97.86%، ووصلت نسبة الاستدعاء إلى 95.83%. دينغ وآخرون. [12] استخدم خوارزمية XGBoost لتصنيف سرطان الثدي والتنبؤ به بدقة 0.96 واسترجاع 0.97. منيروجامان خان وآخرون. [13] تم استخدام نماذج التعلم الآلي المتعددة لتحديد سرطان الثدي، وكانت الغابة العشوائية، وشجرة القرار، وأقرب جار K، والانحدار اللوجستي هي الخوارزميات ذات درجة F1- الأعلى، 96%، 95%، 90%، و98% على التوالي. بهاردواج وآخرون. [14] استخدم الإدراك الحسي متعدد الطبقات (MLP)، وأقرب جار K (KNN)، والخوارزمية الجينية (GP)، والغابة العشوائية (RF) لتصنيف خلايا سرطان الثدي الحميدة والخبيثة، وأظهرت النتائج التجريبية أن المصنف الأمثل كان RF بدقة تصنيف 96.24%. درس دونغ وما [15] العلامات المحتملة لسرطان الثدي الثلاثي السلبي، وتم استخدام خوارزميات التعلم الآلي للتنبؤ بما إذا كان الناس مصابين بسرطان الثدي الثلاثي السلبي. أظهرت النتائج أن دقة نموذج التنبؤ بتصنيف آلة ناقل الدعم (SVM) تصل إلى 97.8٪.

لتحسين دقة طرق تحديد سرطان الثدي وتحسين خوارزميات التعلم الآلي، وانغ وآخرون. [16] اقترح نموذجًا تعليميًا مرجحًا لمجموعة AUC يعتمد على SVM لتشخيص سرطان الثدي، باستخدام C-SVM وV-SVM مع 6 وظائف kernel لزيادة تنوع مجموعة النماذج الأساسية ومقارنة نتائج القرارات المختلفة مع تكامل المنطقة (WAUCE ) نموذج تحت منحنى خاصية العمل المتلقي المرجح. أظهرت النتائج أنه في مجموعة البيانات الصغيرة، يقلل هيكل WAUCE المقترح من تباين دقة التشخيص بنسبة تصل إلى 69.23% ويحسن الدقة بنسبة 0.94%. تشنغ وآخرون. [17] تم اختبار مجموعة بيانات سرطان الثدي في ولاية ويسكونسن (WDBC) وفقًا لخوارزمية K-means ودعم الخوارزمية الهجينة لآلة المتجهات التي تستخرج ميزات الورم وتشخيص سرطان الثدي، وتظهر النتائج أن الخوارزمية الهجينة تعمل على تحسين الدقة إلى 97.38٪. جيا وآخرون. [18] اقترح خوارزمية جديدة لتحسين عدد السكان، وهي خوارزمية تحسين الحيتان (WOA)، التي تضبط بذكاء معلمات نموذج SVM، وتظهر النتائج التجريبية أن أداء نموذج WOA-SVM أفضل بكثير من أداء النموذج التقليدي. نموذج التعرف على سرطان الثدي بدقة 97.5%

لحل مشكلة الإفراط في استخدام تقنيات التعلم الآلي في تصنيف سرطان الثدي، سينغ وآخرون. [19] اقترح شبكة عصبية اصطناعية متصلة وظيفيًا (FLANN) ووجد تجريبيًا أن النموذج يتمتع بدقة عالية للتشخيص المبكر لسرطان الثدي. ماهيش وآخرون. [20] يقترح تقنية مجموعة XGBoost للتنبؤ بسرطان الثدي بناءً على أنماط الميزات المعروفة، أولاً باستخدام تقنية أخذ العينات المفرطة للأقلية الاصطناعية (SMOTE) للتعامل مع اختلال توازن البيانات ومشاكل الضوضاء ثم استخدام مصنف Bayes، ومصنف شجرة القرار، والغابة العشوائية، على التوالي. مع XGBoost وتصنيف البيانات. وفقًا للتحليل التجريبي، يتمتع مصنف مجموعة XGBoost-Random Forest بمعدل دقة يصل إلى 98.20% في الكشف المبكر عن سرطان الثدي.

استنادًا إلى XGBoost والغابة العشوائية والانحدار اللوجستي وأقرب جار K وطرق التعلم الآلي الأخرى، تضع هذه الورقة نماذج مختلفة لتصنيف سرطان الثدي والتنبؤ به، مما يوفر مرجعًا للتشخيص المبكر لسرطان الثدي. عندما تطبق معظم الدراسات نماذج التعلم الآلي على تشخيص خلايا سرطان الثدي، فإنها تركز على استخدام الدقة والدقة ودرجة F1- للنموذج كمؤشرات لتقييم جودة النموذج، مع تجاهل أهمية التشخيص الطبي استرجاع النموذج، الذي يشير إلى نسبة خلايا سرطان الثدي الخبيثة التي يمكن التنبؤ بها، وكلما زاد الاسترجاع، زاد احتمال التنبؤ بالخلايا الخبيثة في خلايا سرطان الثدي. لذلك، تأخذ هذه المقالة الاستدعاء باعتباره الفهرس الأساسي وتأخذ في الاعتبار الدقة والدقة ودرجة F1- لتقييم النموذج المستخدم.

في عملية النمذجة، تعد المعالجة المسبقة للبيانات جزءًا مهمًا جدًا، ويختلف تأثير النموذج التنبؤي اعتمادًا على طريقة المعالجة. وللتخلص من تأثير مفاهيم الأبعاد المختلفة على تأثير النموذج، تم توحيد البيانات. للعثور على المجموعة الفرعية المثالية وتحسين دقة النموذج، تم اختيار الميزة وفقًا لمعامل ارتباط بيرسون بين متغير الميزة والمتغير المستهدف. بالنسبة لمشكلة عدم توازن العينة الإيجابية والسلبية، تم استخدام طريقة أخذ العينات الهرمية لاستخراج مجموعة التدريب ومجموعة الاختبار بشكل متناسب وفقا للفئات المختلفة. بالنظر إلى أن تأثير التنبؤ لنماذج التعلم الآلي يختلف باختلاف أقسام مجموعة البيانات المختلفة، ستستخدم هذه الورقة أقسامًا مختلفة لمجموعة البيانات (8: 2 و7: 3) كمجموعتين من التجارب لمراقبة تأثير التنبؤ للنموذج المحدد في هذه الورقة.

2. المعالجة المسبقة للبيانات

2.1. مقدمة البيانات. مجموعة البيانات المستخدمة في هذه الورقة هي بيانات سرطان الثدي في مجموعة بيانات UCI، والتي قدمها الدكتور ويليام الشهير من معهد أبحاث الطب السريري بجامعة ويسكونسن [21]. يتم حساب الميزات من صورة رقمية لشفطة بإبرة دقيقة (FNA) لكتلة الثدي. يصفون خصائص نواة الخلية الموجودة في الصورة. وتضمنت مجموعة البيانات 569 عينة تجريبية، منها 357 عينة حميدة و212 عينة خبيثة لسرطان الثدي. بالنسبة للخلايا المستخرجة من كل كائن تجريبي، يتم جمع السمات العشرة التالية لنواة الجسم بشكل أساسي: نصف القطر (متوسط ​​المسافة من المركز إلى النقاط الموجودة على المحيط)، المحيط، النعومة (التباين المحلي في أطوال نصف القطر)، المساحة، الاكتناز ( المحيط ∗ ∗ 2/مساحة -1.0)، تقعر (شدة الأجزاء المقعرة من الكفاف)، التناظر، الملمس (الانحراف المعياري لقيم التدرج الرمادي)، النقاط المقعرة (عدد الأجزاء المقعرة للكفاف)، والبعد الكسري _ ("تقريب الخط الساحلي"-1). تم حساب المتوسط ​​والخطأ المعياري و"الأسوأ" أو الأكبر (متوسط ​​القيم الثلاثة الأكبر) لهذه الميزات لكل صورة، مما أدى إلى 30 ميزة. تمثل علامة التصنيف نوع سرطان الثدي. لذلك، تحتوي مجموعة بيانات العينة على إجمالي 30 سمة وميزة تسمية نموذجية واحدة (خبيثة وحميدة).

2.2. توحيد البيانات.

ومن خلال ملاحظة نطاق القيمة لكل ميزة، وجد أن قيم البيانات الخاصة بالميزات المختلفة تختلف اختلافًا كبيرًا. في بعض النماذج، يكون للأبعاد المختلفة تأثير كبير على تأثير التنبؤ. على سبيل المثال، تحتاج خوارزمية الجوار k الأقرب المستندة إلى تقسيم المسافة إلى الحفاظ على اتساق أبعاد البيانات، لذلك يجب توحيد البيانات قبل النمذجة. ومع ذلك، فإن بعض النماذج تكون أقل تأثراً بالأبعاد، مثل خوارزمية الغابة العشوائية. ولجعل التجربة قابلة للمقارنة، يتم التعامل مع بيانات النماذج المختلفة بنفس الطريقة.

بالنسبة للمشكلات المتعلقة بأبعاد بيانات العينة المختلفة، تتضمن طرق المعالجة عديمة الأبعاد شائعة الاستخدام توحيد البيانات، وتتضمن أساليب توحيد البيانات توحيد الحد الأقصى وتوحيد النقاط Z. من بينها، عندما تكون البيانات المستخدمة لها قيم متطرفة خارج نطاق القيمة، أو عندما تكون القيم القصوى والدنيا لبعض المؤشرات غير معروفة، يمكن استخدام توحيد النتيجة Z.

increase memory

في هذه الورقة، وفقًا لخصائص مجموعة بيانات سرطان الثدي WDBC، تم اختيار توحيد النتيجة Z لمعالجة البيانات. تتبع البيانات التي تتم معالجتها بواسطة توحيد Zscore [22] التوزيع الطبيعي القياسي، أي أن المتوسط ​​هو 0 والتباين هو 1. معادلة توحيد النقاط Z هي كما يلي:

improve memory

2.3. اختيار ميزة. كجزء مهم من عملية المعالجة المسبقة للبيانات، يتمثل اختيار الميزة في العثور على المجموعة الفرعية المثالية، ويمكن أن يؤدي اختيار الميزة إلى تقليل الميزات الزائدة عن الحاجة وغير المفيدة لتحسين دقة النموذج. تنقسم طريقة اختيار الميزة عمومًا إلى طريقة التفكير الزائد وطريقة التغليف وطريقة التضمين. يمكن أن تكون طريقة التصفية مستقلة عن الخوارزمية المستخدمة لاحقًا في الدراسة ولها كفاءة حسابية عالية وقدرة تعميم قوية [23]، لذا فإن طريقة اختيار الميزة في هذا البحث تستخدم طريقة التصفية، وملخص الطريقة العامة في طريقة التصفية هو مبين في الجدول 2.

بيانات سرطان الثدي بعد 0 تعني أن التطبيع يلبي متطلبات اختبار معامل ارتباط بيرسون في طريقة الترشيح؛ لذا في هذا البحث تم استخدام معامل ارتباط بيرسون [24] لاختبار الارتباط بين كل سمة والمتغير المستهدف. صيغة معامل ارتباط بيرسون هي كما يلي:

boost memory


3. البناء النموذجي
في هذا البحث، تم التنبؤ بفئات سرطان الثدي على أساس XGBoost، الغابة العشوائية، الانحدار اللوجستي، ونموذج K-nearest Neighbor، على التوالي. تعتبر عينة سرطان الثدي الخبيث إيجابية، في حين تعتبر عينة سرطان الثدي الحميدة سلبية

لحل مشكلة عدم توازن العينة، يستخدم هذا البحث طريقة أخذ العينات الطبقية [25] لاستخراج مجموعة التدريب ومجموعة الاختبار بما يتناسب مع جميع أنواع بيانات العينة. ويسمى أخذ العينات الطبقية أيضًا أخذ العينات النوعية. يتم تقسيم مجتمع العينة إلى مجموعات سكانية فرعية مستقلة عن بعضها البعض. تم إجراء أخذ عينات عشوائية بما يتناسب مع كل مجموعة سكانية فرعية. تسحب العينات الطبقية عينة أكثر تمثيلاً وتكون أكثر ملاءمة للعينات غير المتوازنة.

قد يؤدي تقسيم مجموعة البيانات المختلفة إلى تأثيرات نموذجية مختلفة. ولذلك، تنفذ هذه الورقة مجموعتين من التجارب وفقا لتقسيم مختلف لمجموعة بيانات العينة. قامت المجموعة الأولى بتقسيم مجموعة البيانات إلى مجموعة تدريب ومجموعة اختبار بنسبة 8: 2، وقامت المجموعة الثانية بتقسيم مجموعة البيانات إلى مجموعة تدريب ومجموعة اختبار بنسبة 7: 3. لاحظ أداء النموذج الخوارزميات الأربع ضمن تقسيم مجموعة بيانات مختلفة.

3.1. مؤشرات التقييم. في هذه الدراسة، تم استخدام الدقة والإحكام والتذكر ودرجة F1- [26، 27] لتقييم تأثير التنبؤ للنموذج. وبالنظر إلى خصوصية التشخيص الطبي، فمن المتوقع أنه يمكن التنبؤ بجميع أنواع سرطان الثدي الخبيث. ولذلك، يتم أخذ الاستدعاء كمؤشر تقييم مهم هنا. كلما زادت نسبة الاستدعاء، زادت نسبة الإصابة بسرطان الثدي الخبيث الذي يمكن التنبؤ به. يمكن لنتائج تصنيف النموذج أن تولد مصفوفة ارتباك [28]، كما هو مبين في الجدول 4

هنا، TP هو إيجابي حقيقي، مما يشير إلى عدد العينات الإيجابية المتوقعة كعينات إيجابية. TN هو سلبي حقيقي، مما يشير إلى عدد العينات السلبية المتوقعة كعينات سلبية. FP هو إيجابي كاذب، يشير إلى عدد العينات الإيجابية المتوقعة من العينات السلبية، وهو ما يسمى خطأ النوع 1. FN هو نتيجة سلبية كاذبة، يشير إلى عدد العينات الإيجابية المتوقعة كعينات سلبية، وهو ما يسمى خطأ النوع 2

الدقة، والمختصرة بـ P. بالنسبة للنتائج المتوقعة، تمثل الدقة عدد العينات الإيجابية المتوقعة التي تعتبر عينات إيجابية، والصيغة هي:

10 ways to improve memory

short term memory how to improve

3.2. نموذج التنبؤ بسرطان الثدي بناءً على XGBoost. XGBoost، اختصار لتعزيز التدرج الشديد، هو خوارزمية تعزيز [29]. يعد كل من XGBoost والغابة العشوائية خوارزميات تكامل تعتمد على شجرة القرار. تختلف خوارزمية التعزيز عن خوارزمية التعبئة، حيث تبني متعلمين ضعفاء واحدًا تلو الآخر، وتراكم العديد من المتعلمين الضعفاء من خلال التكرار المستمر [30]. الوظيفة الموضوعية هي

ways to improve memory

. (9) يمكن أن تؤدي إضافة المصطلحات العادية إلى تقليل تباين النموذج وجعل النموذج الذي تم الحصول عليه من خلال مجموعة التدريب أكثر بساطة، لمنع حدوث التجاوز. يتم استخدام خوارزمية XGBoost لتدريب النموذج على مجموعة بيانات التدريب. في عملية تدريب النموذج، يتم تعديل المعلمات للحصول على مجموعة أفضل من المعلمات، وفي النهاية يتم الحصول على نموذج التنبؤ الأمثل. تم استخدام النموذج للتنبؤ بفئات سرطان الثدي في

جلسة. عندما تم تقسيم مجموعة البيانات إلى مجموعة تدريب ومجموعة اختبار بنسبة 8: 2، كانت الدقة والدقة والاستدعاء ودرجة F1- لنموذج XGBoost هي 0.974، {{5} .960، 1.00، و0.980، على التوالي. عندما تم تقسيم نموذج XGBoost إلى مجموعة تدريب واختبار بنسبة 7: 3، كانت الدقة والضبط والاستدعاء ودرجة F1-لنموذج XGBoost 0.959، {{20} }.946، 0.991، و 0.968، على التوالي. أظهرت النتائج أن نموذج XGBoost يتمتع بأداء تنبؤي أفضل عندما يتم تقسيم مجموعة البيانات على 8: 2. ويشير معدل الاستدعاء البالغ 1 إلى أن نموذج XGBoost تنبأ بشكل صحيح بجميع حالات سرطان الثدي الخبيثة في العينة، وهو أمر مهم جدًا للتشخيص الطبي.

داء. 3.3. نموذج التنبؤ بسرطان الثدي بناءً على الغابة العشوائية. الغابة العشوائية عبارة عن خوارزمية تعلم خاضعة للإشراف تدمج عدة أشجار من خلال فكرة التعبئة [31-33]. يتم استخدام طريقة التمهيد لاستخراج مجموعة عينة التدريب من بيانات العينة الأصلية، ويتم تدريب نموذج شجرة القرار المقابل لكل مجموعة تدريب. أخيرًا، يتم التصويت على جميع المصنفات الأساسية، والفئة التي حصلت على أكبر عدد من الأصوات هي الفئة النهائية.

ways to improve brain function

دموي. عندما تم تقسيم مجموعة البيانات إلى مجموعة تدريب ومجموعة اختبار بنسبة 8: 2، كانت الدقة والإحكام والاستدعاء ودرجة F1- لنموذج الغابة العشوائية 0.965، {{5 }}.947، 1.00، و0.973، على التوالي. عندما تم تقسيم مجموعة البيانات إلى مجموعة تدريب ومجموعة اختبار بنسبة 7: 3، كانت الدقة والإحكام والتذكر ودرجة F1- 0.953، 0.946، { {18}}.981، و0.963، على التوالي. أظهرت النتائج أن نموذج الغابة العشوائية يتمتع بأداء تنبؤي أفضل عندما يتم تقسيم مجموعة البيانات على 8: 2. وكان معدل الاستدعاء لهذا النموذج أيضًا 1، مما يشير إلى أن نموذج الغابة العشوائية تنبأ أيضًا بشكل صحيح بجميع الثدي الخبيثة.

memory enhancement

لكن أنا. العناصر الأساسية الثلاثة لخوارزمية أقرب جار k هي قياس المسافة، واختيار قيمة k، وقرار التصنيف. العناصر الأساسية الثلاثة لخوارزمية أقرب جار k هي قياس المسافة، واختيار قيمة k، وقاعدة قرار التصنيف.

بالنسبة لمشكلة اختيار قيمة K في خوارزمية جار أقرب k، تستخدم هذه الورقة طريقة التحقق المتبادل بعشرة أضعاف (38، 39) وتأخذ معدل الاستدعاء كمؤشر تقييم النموذج لتحديد قيمة k مناسبة. دع نطاق القيمة k يكون من 1 إلى 40، ولكل k، يتم إجراء التحقق المتبادل بمقدار عشرة أضعاف. قيمة k مع الحد الأقصى لمعدل الاستدعاء هي قيمة k المثالية. يظهر في الشكل 1 استرجاع قيم k المختلفة تحت التحقق المتبادل بعشرة أضعاف.

يتبين من الشكل 1 أنه كلما زادت قيمة k، انخفض الاستدعاء. عندما يكون k – 3 و k – 5، يكون الاستدعاء هو الأكبر. نظرًا لأن قيمة k تم تعيينها على أنها صغيرة جدًا، فمن السهل الإفراط في الاحتواء، لذلك تم تعيين قيمة k على 5 هنا.

عندما تم تقسيم مجموعة البيانات إلى مجموعة تدريب ومجموعة اختبار بنسبة 8: 2، كانت الدقة والضبط والاستدعاء ودرجة F1- لنموذج k-nearest Neighbor هي 0.912، { {6}}.888، 0.986، و{{10}}.934، على التوالي. عندما تم تقسيم مجموعة البيانات إلى مجموعة تدريب ومجموعة اختبار بنسبة 7: 3، كانت الدقة والإحكام والتذكر والدرجة F1- 0.930، {{21} }.906، 0.991، و 0.946، على التوالي. أظهرت النتائج أن نموذج الجار الأقرب k يتمتع بأداء تنبؤي أفضل عندما يتم تقسيم مجموعة البيانات على 7: 3.

4. المقارنة والتحليل

لفهم أداء النموذج الموجود في هذه الورقة بشكل أفضل، تعتمد هذه الورقة على بيئة تطوير Python 3.9.7 وتستخدم بيانات سرطان الثدي المقدمة من الدكتور ويليام من معهد البحوث الطبية السريرية بجامعة ويسكونسن لإجراء التجارب.

البيئة التجريبية هي نظام التشغيل Windows 11، والمعالج هو Intel(R) Core(TM) i5-1155G7@ 2.50 جيجا هرتز 2.50 جيجا هرتز، والذاكرة 8.00 جيجا بايت.

تظهر المعلمات التجريبية لكل نموذج في الجدول 5، وسيتم تنفيذ نتائج التحليل المقارن الثلاث التالية: (1) مقارنة أداء كل نموذج في هذه الورقة عندما يتم تقسيم مجموعة البيانات إلى مجموعة تدريب ومجموعة اختبار في 8 : 2. (2) مقارنة أداء كل نموذج في هذه الورقة عندما يتم تقسيم مجموعة البيانات إلى مجموعة تدريب ومجموعة اختبار في 7: 3. (3) مقارنة مع بعض النماذج في الأدبيات [11-14].

(1) عندما يتم تقسيم مجموعة البيانات إلى مجموعة تدريب ومجموعة اختبار بنسبة 8: 2، يظهر أداء كل نموذج في الجدول 6.

كما يتبين من الجدول 4، عند تقسيم مجموعة التدريب ومجموعة الاختبار بنسبة 8: 2، تكون دقة طرق التعلم الآلي الأربعة أعلى من 0.9، ومن بينها XGBoost وRF أعلى من {{ {5}}.95. دقة التنبؤ لـ XGBoost هي 0.974، مما يشير إلى دقة التنبؤ العالية. من أجل الدقة، دقة نموذج KNN ليست عالية، أقل من 0.9، فقط 0.888. يتمتع XGBoost بأعلى دقة وهي 0.960. أما بالنسبة للاستدعاء، فإن استدعاء خوارزميات XGBoost والغابة العشوائية والانحدار اللوجستي كلها 1. خوارزمية الجوار الأقرب k لديها أدنى استدعاء، ولكنها أيضًا أعلى من 0.95. في هذه الدراسة، تمثل معدلات الاستدعاء نسبة عينات سرطان الثدي الخبيث التي تم تشخيصها بشكل صحيح. في الطب، يجب تشخيص المرض. نتيجة عدم التشخيص هي تأخير العلاج، مما قد يؤدي إلى فقدان المرضى لأفضل وقت للعلاج. وهذا أخطر بكثير من تشخيص المرض دون الإصابة به. ولذلك فإن معدل الاستدعاء يعد مؤشرا هاما جدا في مجال تشخيص الأمراض. هنا، فإن استدعاء XGBoost والغابة العشوائية وخوارزمية الانحدار اللوجستي كلها 1، مما يشير إلى أنه تم تشخيص جميع سرطانات الثدي الخبيثة في العينات. بالنسبة إلى درجة F{{20}}، يمكن ملاحظة أن درجة F1- الخاصة بـ XGBoost والغابة العشوائية والانحدار اللوجستي كلها أعلى من 0.95. تعتبر درجة F1- لخوارزمية XGBoost هي الأعلى، حيث تصل إلى 0.980. نموذج الجار الأقرب K لديه أدنى درجة F1- تبلغ 0.934. مع أخذ المؤشرات الأربعة في الاعتبار، يمكن القول أنه عندما يتم تقسيم مجموعة البيانات إلى مجموعة تدريب ومجموعة اختبار بنسبة 8: 2، فإن التأثير العام للنموذج لخوارزمية XGBoost يكون أفضل من النماذج الثلاثة الأخرى. لم يحقق XGBoost استرجاعًا لـ 1 فحسب، بل حقق أيضًا استرجاعًا قدره 0.95 أو أكثر للمقاييس الثلاثة الأخرى.

(2) عندما يتم تقسيم مجموعة البيانات إلى مجموعة تدريب ومجموعة اختبار في 7: 3، يظهر أداء كل نموذج في الجدول 7.

كما يتبين من الجدول 7، عندما يتم تقسيم مجموعة التدريب ومجموعة الاختبار بنسبة 7: 3، فإن تأثير نموذج XGBoost وRF ليس جيدًا مثل تأثير 8: 2. أولاً، من حيث المؤشر المهم تذكر، عند تقسيم مجموعة البيانات على 8: 2، كان استدعاء XGBoost وRF كلاهما 1، لكنهما انخفضا الآن إلى 0.991 و{{10}}.981، على التوالي. . كما انخفض النموذجان بشكل طفيف في المؤشرات الثلاثة الأخرى. ومع ذلك، فإن التغيير في تأثير التنبؤ بالانحدار اللوجستي ونموذج الجار الأقرب K يختلف عن هاتين الخوارزميتين. بالنسبة لنموذج الانحدار اللوجستي، بالكاد تغيرت المؤشرات الأربعة عندما تم تقسيم مجموعة التدريب ومجموعة الاختبار بنسبة 7: 3 و8: 2 على التوالي. يوضح هذا أن نموذج الانحدار اللوجستي لا يتأثر تقريبًا بأقسام مجموعة البيانات المختلفة. في حالة التقسيم بنسبة 7: 3 بين مجموعة التدريب ومجموعة الاختبار، أظهر الانحدار اللوجستي دقة ودقة ودرجة F1- أقل من XGBoost والغابة العشوائية. ومع ذلك، فإن استدعاء نموذج الانحدار اللوجستي هو 1، مما يشير إلى أنه تم التنبؤ بجميع أنواع سرطان الثدي الخبيث، وهو أمر ذو أهمية كبيرة لتشخيص المرض. ولذلك، يمكن القول أن تأثير التنبؤ لنموذج الانحدار اللوجستي أفضل من الخوارزميات الثلاثة الأخرى. بالنسبة لنموذج KNN، عندما تم تقسيم مجموعة التدريب ومجموعة الاختبار بنسبة 7: 3، زادت جميع المؤشرات الأربعة. ارتفع معدل التذكر إلى 0.991، وهو أعلى من الغابة العشوائية. تمت زيادة الدقة والإحكام ودرجة F1- من 0.912، {{30}}.887، و0.934 إلى 0 0.930 و0.906 و0.946 على التوالي. ولذلك، فإن أداء نموذج KNN أفضل في حالة تقسيم مجموعة التدريب ومجموعة الاختبار على 7: 3 مقارنة بالنموذج مقسومًا على 8: 2. ويظهر التحليل أن تقسيم مجموعات البيانات غير ثابت. بالنسبة للنماذج المختلفة، تؤدي الأقسام المختلفة إلى تغييرات مختلفة في تأثير التنبؤ بالنموذج.
(3) وفقًا للتحليل المقارن للجدولين 6 و7، فإن نموذج XGBoost المنشأ في هذه الورقة (تقسيم مجموعة التدريب ومجموعة الاختبار على 8: 2) له أفضل تأثير، وفيما يلي مقارنته بأداء النموذج في الأدب [11-14] وتظهر النتائج المحددة في الجدول 8.

كما يتبين من الجدول 8، فإن النماذج الأفضل أداءً من النماذج الخمسة هي نموذج الانحدار اللوجستي للأدبيات [13] ونموذج XGBoost الموضح في هذه الورقة. استرجاع النموذج ودقته في الأدبيات [13] هما 0.99 و 0.98 على التوالي، واستدعاء النموذج ودقته في هذه الورقة هما 1.{{8} } و 0.974، على التوالي، مقارنة بالأدبيات [13]، فإن استدعاء النموذج مرتفع، ويشير الاستدعاء في التشخيص الطبي إلى احتمال اكتشاف الخلايا السرطانية، وهو أمر ذو أهمية كبيرة للتصنيف من خلايا سرطان الثدي، وبالتالي فإن نموذج XGBoost الموضح في هذه الورقة له تأثير تنبؤ أفضل ويمكن استخدامه كأداة طبية لمساعدة الأطباء على وضع خطط علاجية لمرضى سرطان الثدي.

increase brain power

5. الخلاصة

تنبأت هذه الورقة بشكل أساسي بفئات سرطان الثدي، بدءًا من المعالجة المسبقة للبيانات وحتى اختيار الميزات، ومن ثم إلى إنشاء النموذج. وأخيرا، تمت مقارنة نتائج التنبؤ وتحليلها من جوانب عديدة.

في هذا البحث، تم أخذ الاستدعاء كمؤشر مهم للتنبؤ بعينات سرطان الثدي الخبيث بأكبر قدر ممكن من الدقة. تحتوي مجموعة البيانات الأصلية على 30 ميزة، وتم اختيار 15 ميزة كمدخلات للنموذج من خلال اختبار ارتباط بيرسون. قبل إنشاء النموذج، تم توحيد البيانات لإزالة تأثير الأبعاد المختلفة على تأثيرات النموذج. بالنسبة لمشكلة عدم توازن العينات الإيجابية والسلبية، يتم استخدام طريقة أخذ العينات الطبقية لاستخراج مجموعات التدريب ومجموعات الاختبار بشكل متناسب وفقا لفئات مختلفة من البيانات. عند تحديد قيمة k المثالية في أقرب جار k، يتم استخدام الاسترجاع كمؤشر تقييم النموذج، بحيث تكون قيمة k ذات أعلى معدل استدعاء هي القيمة المثلى.

تتم مقارنة النماذج وتحليلها من ثلاثة جوانب. وتظهر النتائج على النحو التالي:

pects. وتظهر النتائج على النحو التالي: (1) في حالة تقسيم مجموعة التدريب ومجموعة الاختبار على 8: 2، يكون استدعاء XGBoost والغابة العشوائية والانحدار اللوجستي 1، وهو ما يمكنه التنبؤ بجميع أنواع سرطان الثدي الخبيث K -أقرب استدعاء جار أقل قليلاً من 0.986 مقارنة بالنماذج الثلاثة الأخرى. بالنسبة لدقة التنبؤ والدقة ودرجة F1- للنموذج، فإن نتائج نموذج XGBoost أفضل من نتائج الغابة العشوائية والانحدار اللوجستي، وهي 0.974، {{1 0}}.96، و0.98 على التوالي، لذلك تم اختيار نموذج XGboost كنموذج للتنبؤ النهائي بشرط تقسيم 8:2 لمجموعة التدريب ومجموعة الاختبار.

(2) في حالة تقسيم مجموعة التدريب ومجموعة الاختبار على 7:3، انخفضت قيم مؤشرات التقييم الأربعة لـ XGBoost والغابة العشوائية، بينما كانت قيم مؤشرات التقييم الأربعة لنموذج الجار الأقرب K تحسنت، ولكن بالنسبة للاستدعاء، كان استرجاع نموذج الانحدار اللوجستي فقط هو 1، وكانت النماذج الأخرى أعلى من 0.98، ​​لذلك كان تأثير التنبؤ بالنموذج للانحدار اللوجستي هو الأفضل، وكانت دقة التنبؤ ودقة وكانت درجة F1- للانحدار اللوجستي هي 0.947، {{10}}.922، و0.96، على التوالي.

improve your memory

(3) يمكن أن نرى من التجارب أنه في ظل الأقسام المختلفة، فإن تأثير التنبؤ للنموذج له تغييرات مختلفة. بمقارنة النماذج المثالية في مجموعتي التجارب المختلفة، يمكن ملاحظة أن دقة التنبؤ والدقة ودرجة F1- لنموذج XGBoost (الذي يقسم مجموعة التدريب ومجموعة الاختبار على 8: 2) أعلى من نموذج الانحدار اللوجستي (الذي يقسم مجموعة التدريب ومجموعة الاختبار على 7: 3) عندما يكون الاستدعاء 1، لذلك يعمل نموذج XGBoost (الذي يقسم مجموعة التدريب ومجموعة الاختبار على 8: 2) الأفضل في النموذج المحدد في هذه الورقة. بالإضافة إلى ذلك، بالمقارنة مع النماذج الموجودة في الأدبيات [11-14]، فإن نموذج XGBoost الموضح في هذه الورقة له تأثير أفضل ويمكنه تحديد خلايا سرطان الثدي الخبيثة بدقة. ومع ذلك، يقتصر هذا البحث على مجموعات البيانات الرقمية، وفي المستقبل، سنحاول استخدام خوارزميات التعلم العميق لتطبيق تقنيات استخراج الميزات المختلفة على بيانات الصور (مثل صور الأشعة السينية) للحصول على نتائج تصنيف أفضل.

توافر البيانات

البيانات التي تدعم نتائج هذه الدراسة متاحة بشكل مفتوح في مستودع التعلم الآلي التابع لـ UCI على https://archive.ics.uci.edu/ml/datasets/Breast+Cancer+Wisconsin+ %28Diagnostic%29.

تضارب المصالح

ويعلن المؤلفون أنه ليس لديهم أي تضارب في المصالح.

شكر وتقدير

تم دعم هذا العمل من قبل المؤسسة الوطنية للعلوم الطبيعية في الصين (المنحة رقم 61502156)، ومشروع التدريس والبحث التابع للجنة التعليم في هوبى (المنحة رقم 282)، ومؤسسة الدكتوراه في جامعة هوبى للتكنولوجيا (المنحة رقم BSQD13051).


مراجع

[1] V. Fotedar, S. Fotedar, P. Takur, S. Vats, A. Negi, and L. Chanderkant، "معرفة عوامل خطر الإصابة بسرطان الثدي وطرق اكتشافه مبكرًا بين العاملين في مجال الرعاية الصحية الأولية في شيملا، هيماشال براديش، "مجلة التعليم وتعزيز الصحة، المجلد. 8، ص. 265، 2019.

[2] MS Simon, TA Hastert, A. Barac, et al., "عوامل خطر أمراض القلب والبقاء على قيد الحياة بعد السرطان في مبادرة صحة المرأة"، السرطان، المجلد. 127، لا. 4، ص 598-608، 2021.

[3] إتش إف باشا، ر.إ. محمد، م.م. توم، وأ.م. يحيى، "التعديلات الجينية واللاجينية لجين الأديبونيكتين: ع"، مجلة الطب الجيني، المجلد. 21، لا. 10، ص. e3120، 2019.

[4] د. هونغ، أيه جيه فريتز، إس كيه زيدي، وآخرون، "الظهارة للانتقال الوسيط والخلايا الجذعية السرطانية تساهم في عدم تجانس سرطان الثدي"، مجلة علم وظائف الأعضاء الخلوية، المجلد. 233، لا. 12، ص 9136-9144، 2018.

[5] J. Zhong, D. Sun, W. Wei, et al., "الشفط بالإبرة الدقيقة الموجه بالموجات فوق الصوتية المعزز بالتباين لخزعة العقدة الليمفاوية الحارسة في سرطان الثدي في المرحلة المبكرة"، الموجات فوق الصوتية في الطب والبيولوجيا، المجلد . 44، لا. 7، ص 1371-1378، 2018.

[6] K. Babic، C. Siguan-Bell، M. Hee، and SC Lin، "Ocular g: تقييم المسح بالموجات فوق الصوتية B للإسفنجة الجراحية المحتجزة بعد جراحة صمام أحمد: حالة ص،" مجلة الجلوكوما، المجلد. 26، لا. 10، ص. e239 – e241، 2017.

[7] A. Yala, PG Mikhael, F. Strand, et al., "نحو نماذج قوية تعتمد على التصوير الشعاعي للثدي لمخاطر الإصابة بسرطان الثدي"، Science Translational Medicine، المجلد. 13، لا. 578، معرف المقالة eaba4373، 2021.

[8] G. Zheng, X. Liu, and G. Han, "مراجعة نظام الكشف والتشخيص بمساعدة الكمبيوتر للصور الطبية"، مجلة البرامج، المجلد. 29، لا. 5، ص 1471-1514، 2018.

[9] EY Huang, S. Knight, CR Guetter, et al.، "التطبيب عن بعد والتوجيه عن بعد في التخصصات الجراحية: مراجعة سردية، المجلة الأمريكية للجراحة، المجلد 218، رقم 4، الصفحات من 760 إلى 766، 2019.

[10] س. وو، بي تي وانج، إتش آر راو، واي. جيانغ، وسي. ليو، "سرطان الثدي وخلايا الأمراض الحميدة تشكل أبحاث القياس"، مجلة جامعة آنهوي الطبية، المجلد. 31، لا. 02، ص 91-93، 1996.

[11] Q. Shen, F. Shao, and R. Sun، "نموذج التنبؤ بسرطان الثدي يعتمد على xgboost،" مجلة جامعة تشينغداو (إصدار العلوم الطبيعية)، المجلد. 32، لا. 1, 2019.

[12] ز. دينغ، ب. سو، وك. زان. ز، "تصنيف سرطان الثدي على أساس التعلم الجماعي،" الأجهزة الطبية الصينية، المجلد. 35، لا. 12, 2020.

[13] M. Monirujjaman Khan, S. Islam, S. Sarkar, et al.، "التحليل المقارن القائم على التعلم الآلي للتنبؤ بسرطان الثدي"، مجلة هندسة الرعاية الصحية، المجلد. 2022، رقم المقالة 4365855، 15 صفحة، 2022.

[14] A. Bhardwaj, H. Bhardwaj, A. Sakalle, Z. Uddin, M. Sakalle, and W. ابراهيم، "تحليل خوارزمية التعلم الآلي والشجرة لتصنيف سرطان الثدي"، الذكاء الحسابي وعلم الأعصاب، المجلد. 2022، رقم المقالة 6715406، 6 صفحات، 2022.

[15] H. Dong and L. Ma، "نموذج التنبؤ بسرطان الثدي الثلاثي السلبي بناءً على التعلم الآلي،" مجلة جامعة يونان، المجلد. 39، لا. 1، ص 111-115، 2017.


For more information:1950477648nn@gmail.com


قد يعجبك ايضا