استكشاف محولات الرؤية ذاتية الإشراف للتعرف على المشية في البرية، الجزء الأول

Nov 24, 2023

خلاصة:

تعد طريقة المشي (المشية) مقياسًا حيويًا قويًا يُستخدم كطريقة فريدة لبصمات الأصابع، مما يسمح بإجراء تحليلات سلوكية غير مزعجة عن بعد دون تعاون مع الموضوع.

نعلم جميعًا أن التمارين الرياضية تساعد على الصحة الجيدة. بالإضافة إلى ذلك، تساعد التمارين الرياضية أيضًا على تحسين الذاكرة. المشي هو أبسط وأسهل شكل من أشكال التمارين الرياضية التي يمكن ممارستها، ويستمتع الكثير من الأشخاص بالاسترخاء أثناء المشي أو الركض. الآن، تظهر المزيد من الأبحاث أن المشي يفعل أشياء قوية للدماغ.

أولاً، يحفز المشي الجهاز العصبي للدماغ، مما يساعد على تقوية وظائف الدماغ. عندما يتحرك الجسم، يزداد معدل ضربات القلب وتدفق الدم، مما يحفز الدماغ أيضًا على إنتاج المزيد من الخلايا العصبية والمشابك العصبية. يمكن أن تؤدي الروابط بين هذه الخلايا العصبية والمشابك العصبية إلى إنشاء شبكات عصبية جديدة وعمليات تفكير أسرع.

ثانياً، يمكن أن يخفف المشي من التوتر والقلق، وهو أمر مهم جداً لتحسين الذاكرة. عندما يكون العقل والجسم في حالة من التوتر أو الاكتئاب أو القلق، يفرز الدماغ هرمونًا يسمى الكورتيزول. ويدمر الكورتيزول الخلايا العصبية والمشابك العصبية في الدماغ، مما قد يؤدي إلى فقدان الذاكرة. يخفف المشي من التوتر والقلق، ويقلل من إنتاج الكورتيزول في الجسم، ويساعد في الحفاظ على صحة الخلايا العصبية والمشابك العصبية.

وأخيرا، المشي يزيد الدورة الدموية في الدماغ. تظهر بعض الدراسات أن الدورة الدموية الجيدة يمكن أن تساعد في تحسين الذاكرة. مع تقدمنا ​​في العمر، تصبح الأوعية الدموية في الدماغ مسدودة تدريجياً، مما يؤدي إلى عدم وصول كمية كافية من الأكسجين إلى الدماغ. يمكن أن يعزز المشي صحة القلب، مما يسمح للقلب بتوصيل الأكسجين والمواد المغذية إلى الدماغ بشكل أكثر فعالية، وبالتالي تعزيز الذاكرة ووظيفة الدماغ.

ولذلك، يعتبر المشي شكلاً رائعًا من التمارين الرياضية لكل من الصغار والكبار. بالإضافة إلى تحسين الصحة البدنية، يمكن أن يساعد المشي أيضًا في تحسين الذاكرة. دعونا نسير مسافة كل يوم لنجعل أنفسنا أكثر صحة وأفضل! يمكن ملاحظة أننا بحاجة إلى تحسين الذاكرة، ويمكن لـ Cistanche deserticola أن يحسن الذاكرة بشكل كبير لأن Cistanche deserticola هي مادة طبية صينية تقليدية لها العديد من التأثيرات الفريدة، أحدها هو تحسين الذاكرة. تأتي فعالية اللحم المفروم من المكونات النشطة المختلفة التي يحتوي عليها، بما في ذلك الأحماض والسكريات والفلافونويد وغيرها. ويمكن لهذه المكونات تعزيز صحة الدماغ بطرق مختلفة.

improve memory

انقر فوق تعرف على 10 طرق لتحسين الذاكرة

على عكس طرق المصادقة البيومترية التقليدية، لا يتطلب تحليل المشية تعاونًا صريحًا من الشخص المعني ويمكن إجراؤه في إعدادات منخفضة الدقة، دون الحاجة إلى أن يكون وجه الشخص خاليًا من العوائق أو مرئيًا. يتم تطوير معظم الأساليب الحالية في بيئة خاضعة للرقابة، باستخدام بيانات توضيحية نظيفة ومعيارية، والتي عززت تطوير البنى العصبية للتعرف والتصنيف.

في الآونة الأخيرة فقط، غامر تحليل المشي باستخدام مجموعات بيانات أكثر تنوعًا وواسعة النطاق وواقعية للشبكات المدربة مسبقًا بطريقة خاضعة للإشراف الذاتي. يتيح نظام التدريب الخاضع للإشراف الذاتي تعلم تمثيلات مشية متنوعة وقوية دون الحاجة إلى شروح بشرية يدوية باهظة الثمن. بفضل الاستخدام الواسع النطاق لنموذج المحولات في جميع مجالات التعلم العميق، بما في ذلك رؤية الكمبيوتر، في هذا العمل، نستكشف استخدام خمسة بنيات مختلفة لمحولات الرؤية المطبقة مباشرة على التعرف على المشية الخاضع للإشراف الذاتي.

نحن نقوم بتكييف وإعادة تدريب ViT وCaiT وCrossFormer وToken2Token وTwinsSVT البسيطة على مجموعتين مختلفتين من بيانات المشي واسعة النطاق: GREW وDenseGait. نحن نقدم نتائج شاملة للتصوير الصفري والضبط الدقيق لمجموعتي بيانات معيارية للتعرف على المشية، CASIA-B وFVG، واستكشاف العلاقة بين كمية معلومات المشية المكانية والزمنية التي يستخدمها المحول البصري.

تظهر نتائجنا أن تصميم نماذج المحولات لمعالجة الحركة يستخدم نهجًا هرميًا (أي نماذج CrossFormer) في معارض الحركة ذات الحبيبات الدقيقة بشكل أفضل نسبيًا من أساليب الهيكل العظمي الكاملة السابقة.

الكلمات الدالة:

التعرف على المشية المصادقة البيومترية؛ محول الرؤية تقدير الموقف؛ التعلم الخاضع للإشراف الذاتي؛ التعلم المتناقض.

1 المقدمة

إن الطريقة التي نتحرك بها تحتوي على أدلة مهمة عن أنفسنا. على وجه الخصوص، تمت دراسة مشيتنا (طريقة المشي) عن كثب في الطب [1] وعلم النفس [2] وعلوم الرياضة [3]. في الآونة الأخيرة، حظي تحليل المشية باهتمام متزايد [4،5] من مجتمع علوم الكمبيوتر بالتزامن مع التقدم الهائل للتعلم العميق والتوافر الواسع النطاق لأجهزة الكمبيوتر.

تمكنت أنظمة تحليل المشية المدعومة بالذكاء الاصطناعي من التعرف بنجاح على الموضوعات [6-10]، وتقدير التركيبة السكانية مثل الجنس والعمر [11]، وتقدير السمات الخارجية مثل الملابس [12]، دون استخدام أي إشارات مظهر خارجي. هذه النتائج ليست مفاجئة، نظرا للكم الكبير من الاختلافات الفردية في المشي، والتي ترجع إلى الاختلافات في البنية العضلية الهيكلية، والعوامل الوراثية والبيئية، فضلا عن الحالة العاطفية للمشاي وشخصيته [13].

يتم تدريب الأنظمة الحالية واختبارها فقط في بيئات داخلية خاضعة للرقابة. تستخدم معظم الأساليب مجموعة بيانات CASIA-B [6] كمعيار قياسي لنماذج التعرف على المشية، والتي تحتوي على 124 شخصًا يسيرون في الداخل بطريقة يتم التحكم فيها بشكل صارم وتم التقاطها بكاميرات متعددة. ولا يمكن صياغة التعقيد في العالم الحقيقي بشكل كامل من خلال مثل هذه السيناريوهات المقيدة. في الآونة الأخيرة فقط، تم التركيز على نمذجة المشية "في البرية"، باستخدام مجموعات البيانات مثل DenseGait [12]، وGREW [7]، وGait3D [14].

short term memory how to improve

يمثل جمع مجموعة بيانات واسعة النطاق ونظيفة وموضحة بالكامل جهدًا هائلاً من حيث الموارد المالية والوقت المخصص. يقال إن مجموعة بيانات GREW [7] استغرقت 3 أشهر من العمل المتواصل لتجميعها وتعليقها. في حين أن مثل هذه الأساليب كانت مفيدة في تطوير البنى العصبية لمعالجة المشية [8،9]، إلا أنها ليست متنوعة بما فيه الكفاية لاستخدامها بشكل صحيح في بيئات العالم الحقيقي الأكثر استرخاءً.

كان مجتمع الذكاء الاصطناعي يبتعد ببطء عن هذا النهج في مجالات أخرى، مع اكتساب أساليب التعلم الخاضع للإشراف الذاتي لكل من الرؤية [15] واللغة [16] قوة جذب كبيرة وغالبًا ما تتجاوز الأساليب التقليدية الخاضعة للإشراف. أظهر التقدم الأخير في التعلم الخاضع للإشراف الذاتي أن النماذج الخاضعة للإشراف الذاتي أكثر قوة وتظهر سلوكيات ناشئة، ولم يتم تحديدها بشكل صريح أثناء التدريب.

على سبيل المثال، DINO [17]، وهو محول رؤية تم تدريبه في نظام خاضع للإشراف الذاتي، تعلم ميزات خاصة بفئة معينة تتيح تجزئة الكائنات غير الخاضعة للإشراف دون استخدام أي من هذه التسميات أثناء التدريب. اقترح كوزمان ورادوي [10] أول طريقة متباينة للتعلم الخاضع للإشراف الذاتي لتحليل المشية، من خلال تدريب ST-GCN [18] على نسخة أصغر من DenseGait [12]. حصلت طريقتهم على نتائج معقولة في مهام التعرف على المشية النهائية وأظهرت أن هناك علاقة قوية بين حجم مجموعة البيانات المدربة مسبقًا وأداء نقل اللقطة الصفرية.

في حين أن العديد من أساليب تحليل المشية تستخدم الصور الظلية المستخرجة من الطرح في الخلفية [6،8،9]، فإن استخراج الصور الظلية في سيناريوهات المراقبة الحقيقية يعني استخدام تقنيات أكثر تقدمًا، مثل تجزئة المثال [19]، والتي تأتي بتكلفة حسابية عالية. تشغل تسلسلات الصور الظلية مساحة تخزين كبيرة وليست مرنة بما يكفي لاستخدامها في مهام أخرى مجاورة، مثل التعرف على الأنشطة. علاوة على ذلك، فإن الصور الظلية تشفر إشارات المظهر الدقيقة، مما يجعل من غير الواضح إلى أي مدى يتم استخدام الحركة في تحديد الهوية [20].

من ناحية أخرى، أصبحت نماذج التقدير الوضعي ثنائي الأبعاد دقيقة بشكل متزايد وفعالة من الناحية الحسابية [21،22]. استخراج الهياكل العظمية رخيص الثمن، وهي حاليًا أكثر موثوقية من الشبكات ثلاثية الأبعاد والأوضاع ثلاثية الأبعاد، خاصة عن بعد. علاوة على ذلك، فإن الهياكل العظمية ثنائية الأبعاد أخف بكثير من الصور الظلية من حيث التخزين على المدى الطويل.

تستخدم البنى الحالية لمعالجة تسلسل الهياكل العظمية بنية الرسم البياني المكاني الطبيعي الموجود في الهيكل العظمي البشري، مما يؤدي إلى تحيز استقرائي في تصميم النموذج. شهدت نماذج مثل ST-GCN [18] وMS-G3D [23] الشهيرة نتائج مبهرة للتعرف على الحركة القائمة على الهيكل العظمي.

في الوقت نفسه، كان هناك انفجار في استخدام نماذج المحولات في جميع مجالات التعلم العميق تقريبًا منذ تطبيقها الأولي لمعالجة اللغة الطبيعية.

تعتبر المحولات بنية أكثر عمومية، مع القليل من التحيزات الاستقرائية. في البداية، كافحت المحولات لمطابقة نماذج CNN لتصنيف الصور [24]، ولكنها تتفوق حاليًا على النماذج الأخرى وتظهر نتائج واعدة في سيناريوهات الإشراف الذاتي، أكثر من الأنواع الأخرى من البنيات، أظهرت المحولات قدرة تعليمية مثيرة للإعجاب وسلوكيات ناشئة في ظل الذات. -الإشراف [17].

كان كوزما ورادوي [12] أول من اقترح GaitFormer، وهو تعديل مباشر لنموذج تشفير محول الرؤية للتعرف على المشية، وذلك باستخدام الهياكل العظمية الفردية كـ "رقع" مدخلات، حيث يؤدي بشكل أساسي الانتباه الزمني فقط، ويتجاهل علاقات الانتباه المكاني.

تم تدريب GaitFormer بطريقة خاضعة للإشراف الذاتي وتفوق على طرق التعرف على المشية الأخرى حتى بدون أي ضبط دقيق. مثل هذا العمل السابق مشجع ويمهد الطريق لإجراء دراسة أكثر تعمقًا للتطبيق المحتمل لمعماريات المحولات لتحليل المشية. هل يمكن تكييف نماذج محولات الرؤية للتعلم الخاضع للإشراف الذاتي لتمثيلات مشية الهيكل العظمي؟

القضية المعمارية الرئيسية في محولات الرؤية هي تحديد العلاقات المناسبة بين بقع الصورة، والتي تحدد المعلومات المحلية والعالمية. عند تطبيقه على المشية، يتوافق اختيار أبعاد الرقعة مع مقدار المعلومات الزمنية والمكانية المشفرة لتسلسل الهيكل العظمي.

في هذا العمل، نقدم دراسة موسعة لخمسة محولات رؤية مختلفة، تم تكييفها للتعرف على المشية. نستكشف نموذج ViT الكلاسيكي [24]، وCaiT [25]، وCrossFormer [26]، وTwinsSVT [27]، وViT من رمز إلى رمز [28].

ways to improve memory

يتم تدريب كل بنية بشكل منفصل بطريقة متباينة ذاتية الإشراف على مجموعتي بيانات كبيرتين "في البرية" لتسلسلات هيكلية المشي ثنائية الأبعاد: DenseGait - مجموعة بيانات يتم جمعها تلقائيًا من تدفقات المراقبة الأولية، وGREW، وهي مجموعة بيانات أصغر تحتوي على تعليقات توضيحية بشرية نظيفة.

نحن نستكشف إمكانيات النقل عبر مجموعتي بيانات يتم التحكم بهما للتعرف على المشية، CASIA [6] وFVG [29]. بالنسبة لكل مجموعة بيانات، نقوم بتحليل النقل المباشر (الطلقة الصفرية) وكفاءة البيانات أثناء الضبط الدقيق من خلال التدريب مع مجموعات فرعية أكبر تدريجيًا من مجموعات البيانات. علاوة على ذلك، نقوم بإجراء دراسة استئصال حول العلاقة بين الأبعاد المكانية والزمنية لأحجام التصحيح لـ SimpleViT وCaiT ، العمود الفقري القياسي لمعظم محولات الرؤية حتى الآن.

يتم تنظيم بقية الورقة على النحو التالي. نحن نجري نظرة عامة رفيعة المستوى على الأعمال ذات الصلة حول نماذج التعرف على المشية ومحولات الرؤية. نلاحظ أن نماذج تمثيل المشية تستفيد بشكل كبير من التدريب الخاضع للإشراف الذاتي للحصول على المزيد من التضمينات العامة والعامة، وقد أظهرت نماذج المحولات قدرة كبيرة على النمذجة في أنظمة التدريب الخاضعة للإشراف الذاتي.

علاوة على ذلك، فإننا نوصف رياضيًا البنى الخمس التي نقيسها ونصف المعالجة المسبقة للبيانات والتحولات الهيكلية المطلوب تنفيذها، بحيث يجب أن تعمل محولات الرؤية بسلاسة على تسلسلات هيكلية. نحن أيضًا نصف عمليات تعزيز البيانات، ومجموعات البيانات التدريبية وقياس الأداء، والإعدادات التجريبية.

نعرض النتائج على CASIA-B وFVG لكل من البنى الخمسة ومجموعتي بيانات "التدريب المسبق في البرية". أخيرًا، قمنا بإجراء دراسة استئصال حول العلاقة بين أحجام الرقعة المكانية والزمانية وتقديم مناقشة موجزة لنتائجنا. نجعل كود المصدر الخاص بنا متاحًا للجمهور على GitHub (https://github.com/cosmaadrian/gait-vit، تم الوصول إليه في 28 فبراير 2023) من أجل الشفافية وإمكانية التكرار.

2. العمل ذات الصلة

في هذا القسم، نقدم لمحة موجزة عن الأساليب الحالية للتعرف على المشية في البيئات غير الخاضعة للرقابة و"في البرية". علاوة على ذلك، فإننا نصف التطورات الرئيسية لنماذج المحولات، وعلى وجه الخصوص، تطبيقها في مجال الرؤية.

2.1. التعرف على المشية

على غرار التعرف على الوجه، يعتمد التعرف على المشية على التعلم المتري. على عكس طرق المصادقة البيومترية التقليدية، التي تعتمد على صورة واحدة (مثل التعرف على الوجه) وتتطلب تعاونًا واسع النطاق (على سبيل المثال، المصادقة البيومترية المستندة إلى قزحية العين)، تتم معالجة ميزات المشي كسلسلة من لقطات الحركة. تتطلب ديناميكيات الإيماءات هذه مزيدًا من التعقيد في تحديد التسلسل الفرعي الأكثر إفادة ولكنها تتيح استخدام المصادقة غير المزعجة عن بعد.

في هذا السياق، تتضمن المهمة تدريب شبكة تشفير على رسم خريطة لتسلسلات المشي في مساحة التضمين حيث يتوافق تشابه التضمين مع تشابه المشية. يجب أن تكون عمليات التضمين التي تنتمي إلى نفس الشخص قريبة من مساحة التضمين ويجب أن يكون الأشخاص الذين ينتمون إلى هويات مختلفة أكثر بعدًا. في مساحة التضمين هذه، يمكن إجراء الاستدلال من خلال الحصول على تضمين تسلسل المشية واستخدام أقرب جار النهج على قاعدة بيانات للمشي المعروفة.

تنقسم الأساليب الحالية في التعرف على المشية إلى فئتين: القائمة على المظهر [8,9] والقائمة على النموذج [10,12,30]. تحصل الأساليب المستندة إلى المظهر أولاً على الصور الظلية لموضوعات المشي باستخدام خوارزميات الطرح أو التجزئة في الخلفية من كل إطار فيديو.

ثم يتم تغذية تسلسل الصور الظلية في البنى المستندة إلى CNN والتي تستخرج الميزات المكانية والزمانية التي يتم تجميعها في التضمين النهائي للتعرف عليها. تستخرج الأساليب القائمة على النماذج الهياكل العظمية من مقاطع فيديو RGB باستخدام نماذج التقدير الموضعي [21،22]. عادةً ما تتم معالجة تسلسل الهياكل العظمية بواسطة نماذج تعتمد على تلافيفات الرسم البياني [10،30] للحصول على تضمين المشية.

GaitSet، عمل تشاو وآخرون. [8]، يعتبر المشية بمثابة مجموعة غير مرتبة من الصور الظلية. يرى المؤلفون أن هذا التمثيل أكثر مرونة من تسلسل الصور الظلية لأنه قوي بالنسبة لترتيبات مختلفة من الإطارات أو مجموعة من اتجاهات المشي المتعددة والتنوعات. يستخدمون طبقات تلافيفية لكل صورة ظلية للحصول على ميزات على مستوى الصورة ودمجها في ميزة على مستوى المجموعة مع Set Pooling. يحصلون على الناتج النهائي من خلال استخدام نسختهم من HorizontalPyramid Matching [31].

مروحة وآخرون. [9] لاحظت حقيقة أن أجزاء معينة من الصورة الظلية البشرية يجب أن يكون لها تعبيرها الزماني المكاني حيث أن كل جزء له نمط فريد. تستخدم هندستها المعمارية، GaitPart، طبقات الالتفاف البؤري (FConvs)، وهي نوع متخصص من الالتفاف مع مجال استقبال أكثر تقييدًا. يرى المؤلفون أن FConvs تساعد بنيتهم ​​في تعلم المزيد من الميزات الدقيقة لأجزاء مختلفة من الجسم المتحرك. كما يقدمون وحدات التقاط الحركة الدقيقة، والتي تُستخدم لاستخراج ميزات التسلسلات الزمنية الصغيرة.

تيبي وآخرون. [30] يقترح GaitGraph، الذي يستفيد من شبكة تلافيفية للرسم البياني مُكيَّفة تسمى ResGCN [32] لتشفير الميزات الزمانية المكانية التي تم الحصول عليها من تسلسل الهياكل العظمية. لي وآخرون. [33] يقترح PTP، وهو هيكل يجمع ميزات زمنية متعددة من دورة مشية واحدة بناءً على تحليلهم لأهم مراحل المشي.

كما أنها تستخدم شبكة تلافيفية للرسم البياني لاستخراج المعالم المكانية، والتي تعمل مع PTP. يقدم المؤلفون طريقة جديدة لزيادة البيانات تعمل على تعديل المشية للحصول على خطوات متعددة في دورة أكثر واقعية.

ومع ذلك، وخلافًا للأعمال السابقة، فإننا نهدف إلى استكشاف أداء بنيات التعرف على المشية في سيناريوهات خاضعة للإشراف الذاتي. مستوحاة من التقدم الهائل في مجال رؤية الكمبيوتر، نقترح تكييف بنيات محولات الرؤية الحالية للعمل على تسلسلات هيكلية بدلاً من الصور واختبار قدرتها على النمذجة في سيناريوهات خاضعة للإشراف الذاتي. تركز معظم الأعمال الأخرى [8،9،30] جهودها على تطوير البنى العصبية التي تحقق نتائج مبهرة في التعرف على المشية في مجموعات البيانات الخاضعة للرقابة.

ومع ذلك، فإننا نعتزم إزالة الحاجة إلى التعليقات التوضيحية اليدوية باهظة الثمن لمجموعات بيانات المشية واستكشاف الطرق التي يكون فيها التعلم الخاضع للإشراف الذاتي مناسبًا لتحليل المشية.

memory enhancement

أظهرت الأعمال السابقة في هذا المجال [10،12] إمكانية تعلم تمثيلات مشية جيدة من مجموعات البيانات المشروحة بشكل ضعيف. اقترح Cosmaand Radoi [12] GaitFormer، وهي أول بنية قائمة على المحولات لمعالجة تسلسلات الهيكل العظمي، مستوحاة من نموذج ViT [24]. كما هو الحال مع [12]، نحاول استكشاف أداء نماذج محولات الرؤية الأخرى، مع ديناميكيات مكانية وزمانية مختلفة في آلية معالجة التصحيح. تم اقتراح مجموعات بيانات واسعة النطاق للتعرف على المشية في الماضي [7،12]، مما يسمح بتطوير بنيات عامة للتعلم التمثيلي.


For more information:1950477648nn@gmail.com


قد يعجبك ايضا