التعرف على لغة الإشارة المستمر والمكاني والزماني الجديد باستخدام شبكة اليقظة متعددة الميزات (1)
Jun 01, 2023
خلاصة: نظرًا لتدفقات الفيديو ، نهدف إلى الكشف بشكل صحيح عن العلامات غير المقسمة المتعلقة بالتعرف المستمر على لغة الإشارة (CSLR). على الرغم من الزيادة في طرق التعلم العميق المقترحة في هذا المجال ، فإن معظمها يركز بشكل أساسي على استخدام ميزة RGB فقط ، إما صورة الإطار الكامل أو تفاصيل اليدين والوجه. إن ندرة المعلومات لعملية تدريب CSLR تقيد بشدة القدرة على تعلم ميزات متعددة باستخدام إطارات إدخال الفيديو. علاوة على ذلك ، قد يؤدي استغلال جميع الإطارات في مقطع فيديو لمهمة CSLR إلى أداء دون المستوى الأمثل نظرًا لأن كل إطار يحتوي على مستوى مختلف من المعلومات ، بما في ذلك الميزات الرئيسية في استنتاج الضوضاء. لذلك ، نقترح التعرف على لغة الإشارة الزمانية المكانية الجديدة باستخدام الشبكة اليقظة متعددة الميزات لتعزيز CSLR من خلال توفير ميزات أساسية إضافية. بالإضافة إلى ذلك ، نستغل طبقة الانتباه في الوحدات المكانية والزمانية للتأكيد في وقت واحد على العديد من الميزات المهمة. توضح النتائج التجريبية من مجموعتي بيانات CSLR أن الطريقة المقترحة تحقق أداءً فائقًا مقارنةً بأحدث الأساليب الحالية بواسطة 0. 76 و 20.56 لنتيجة WER على مجموعات بيانات CSL و PHOENIX ، على التوالي.

أعشاب سوبرمان موجودة
الكلمات الدالة: لغة الإشارة المستمرة؛ مكاني؛ زمني؛ متعدد الميزات. النقاط الرئيسية؛ الاهتمام بالنفس
1 المقدمة
تعطي لغة الإشارة الأولوية للتواصل اليدوي باستخدام إيماءات اليد ولغة الجسد وحركات الشفاه بدلاً من الصوت للتواصل [1،2]. عادة ، يتم استخدام لغة الإشارة من قبل الأشخاص الصم أو الذين يعانون من ضعف السمع ، ولكن يمكن استخدامها أيضًا في المواقف التي يكون فيها من المستحيل أو من الصعب سماع الأصوات. لذلك ، هناك حاجة إلى نظام التعرف على لغة الإشارة (SLR) لأنه يساعد على ربط الأشخاص الذين يعانون من ضعف السمع والذين ليسوا كذلك.
في السنوات الأخيرة ، ركز الباحثون اهتمامًا كبيرًا على SLR بسبب المعلومات المرئية الغنية التي يوفرها. يتم عادةً تجميع دراسات SLR الحديثة في التعرف على لغة الإشارة المعزولة (ISLR) أو التعرف المستمر على لغة الإشارة (CSLR). تتناول العديد من الأعمال ISLR [3،4] فقط ، بينما تحلل أعمال أخرى المهام الأسهل فقط ، مثل الإيماءات الثابتة للتعرف على الأبجدية [5]. وفي الوقت نفسه ، عادةً ما تكون أحدث الطرق أكثر تعقيدًا لأنها تحل مهام CSLR [6-8]. بالمقارنة مع ISLR ، تعد CSLR مشكلة أكثر صعوبة لأنها تنطوي على إعادة بناء الجمل.

شاي Cistanche
انقر هنا لعرض منتجات شاي Cistanche Deserticola
【اطلب المزيد】 البريد الإلكتروني: cindy.xue@wecistanche.com / تطبيق Whats: 0086 18599088692 / Wechat: 18599088692
لا تزال أبحاث CSLR مطلوبة بشدة لأن تنفيذها يرتبط ارتباطًا وثيقًا بالظروف اليومية في العالم الحقيقي. يهدف هذا النهج إلى التعرف على سلسلة اللمعان التي تحدث في سلسلة فيديو بدون تقسيم واضح أو حتى لا شيء على الإطلاق. علاوة على ذلك ، فهو يشتمل على قدر كبير من أبحاث التعلم الآلي والفهم الشامل للسلوك البشري. على سبيل المثال ، يتضمن تتبع حركة الإنسان [9] ، والتعرف على الإيماءات [10] ، والتعرف على الوجه [11]. ومع ذلك ، هناك العديد من التحديات لأداء مهام CSLR.
أولاً ، جمع البيانات والتعليق التوضيحي مكلفان بالنسبة لـ CSLR [12]. ربما يكون هذا أحد التحديات التي تمت مواجهتها في تطورها حيث أن CSLR تشارك في شبكة كبيرة وكمية البيانات تؤثر بشدة على الأداء [13]. علاوة على ذلك ، هناك شرح ضعيف للعديد من مجموعات البيانات المتاحة للغة الإشارة [12 ، 14 ، 15]. لحل هذه المشكلة ، استخدمت العديد من الدراسات نهجًا خاضعًا للإشراف الضعيف ، إلى جانب تطبيق محاذاة ووحدة استخراج ميزة على بنية الشبكة [12].
ثانيًا ، بالمقارنة مع ISLR ، فإن CSLR أكثر تعقيدًا. يتم الحصول على معلومات كافية باستخدام العديد من الميزات ؛ وقد ثبت أن هذا يحقق أداءً أفضل من استخدام ميزة واحدة كما ورد في الأعمال السابقة [16–18]. تتكون هذه الميزات المتعددة من الميزة الرئيسية وهي صورة الجسم التي تحقق أعلى دقة وميزات إضافية ، مثل الوضع ، والرأس ، واليد اليسرى ، واليد اليمنى ، والتي تتميز بدقة أقل للأداء الفردي [17 ، 18]. يستغرق تدريب شبكة كبيرة بكمية كبيرة من البيانات وقتًا طويلاً [13]. تؤدي إضافة تدفق الإدخال أيضًا إلى زيادة وقت التدريب ، بينما يؤدي استخدام ميزات إضافية قائمة على الصورة إلى زيادة التكلفة [19]. لذلك ، نحتاج إلى اختيار ميزات مهمة حتى نتمكن من التدريب بكفاءة.

cistanche الأعشاب الصينية
ثالثًا ، يحتوي إدخال الفيديو على عدد كبير من الصور في التسلسل. بعض الصور لها شكل يد غير واضح بسبب الحركة السريعة ، مما قد يؤدي إلى معلومات غير صحيحة. لذلك ، يستخدم نموذجنا المقترح الانتباه الذاتي بناءً على [20] للمساعدة في اختيار المعلومات المهمة. علاوة على ذلك ، فإن الاهتمام الذاتي الذي أثبتته [21،22] له تأثير على تحسين الأداء.
لذلك ، نقترح نموذجًا جديدًا يسمى الرواية متعددة السمات الزمانية المكانية (STAMF) للتعامل مع جميع المشاكل. تابعنا الأعمال السابقة [17،23] ، والتي ثبت أنها تعمل لصالح CSLR مع مشاكل التعليقات التوضيحية الضعيفة. يبنون النموذج باستخدام ثلاثة مكونات رئيسية: الأول هو الوحدة المكانية ، والثاني هو الوحدة الزمنية ، والثالث هو وحدة التعلم التسلسلي. نقترح إدخالاً متعدد الميزات يتسم بالكفاءة والفعالية باستخدام ميزة الإطار الكامل جنبًا إلى جنب مع ميزات Keypoint لأداء مهام CSLR. تمثل ميزة الإطار الكامل صورة الجسم كميزة رئيسية ، وميزات النقطة الأساسية كميزة إضافية. ميزة النقطة الأساسية هي وضع الجسم ، بما في ذلك تفاصيل وضع اليد. يعد وضع الجسم هذا أكثر ميزة إضافية فاعلية حيث ثبت في بعض الأعمال أنه يحقق أعلى دقة بعد ميزة الإطار الكامل [17 ، 18]. نستخدم أيضًا وحدة الانتباه التي تستخدم الانتباه الذاتي بناءً على [20] لالتقاط الميزة المهمة ولمساعدة التعلم المتسلسل لتحسين الأداء.
تتلخص مساهمة هذه المخطوطة على النحو التالي: • نقدم اهتمامًا زمنيًا جديدًا في وحدة التسلسل لالتقاط النقاط الزمنية المهمة التي تساهم في الإخراج النهائي. • نقدم الميزة المتعددة التي تتكون من ميزة الإطار الكامل من قيمة RGB للإطار باعتبارها الميزة الرئيسية وميزات النقطة الأساسية التي تشمل الجسم مع تفاصيل شكل اليد كميزة إضافية لتحسين أداء التعرف على النموذج ؛ • نستخدم مقياس WER لإظهار أن نموذج STAMF المقترح الخاص بنا يتفوق في الأداء على أحدث النماذج في كل من مجموعتي بيانات معيار CSLR من خلال التجارب.

ملحق Cistanche بالقرب مني - تحسين الذاكرة
2. الأعمال ذات الصلة
كان هناك العديد من التطورات في التكنولوجيا ، وتم إجراء الكثير من الأبحاث على SLR. استكشفت الدراسات السابقة [24-27] إمكانية استخدام ISLR الذي يحتوي على تجزئة لكل كلمة. في السنوات الأخيرة ، تم استخدام الأساليب القائمة على التعلم العميق لاستخراج الميزات باستخدام الشبكات التلافيفية ، إما ثنائية الأبعاد [28 ، 29] أو ثلاثية الأبعاد [30 ، 31] ، لتمثيلها المرئي القوي. تركزت غالبية الأبحاث المبكرة حول التعرف على لغة الإشارة على ISLR بخصائص متعددة الوسائط [30-32] ، مثل RGB وخرائط العمق والهياكل العظمية ، والتي توفر أداءً أفضل.
في الوقت الحاضر ، أصبحت CSLR أكثر شيوعًا ، على الرغم من أنها لم يتم تقسيمها بوضوح بين كل كلمة. تستخدم الأعمال المبكرة مستخرج ميزة CNN [6،33] و HMM [34] لبناء هدف التسلسل. تضمنت بعض الأبحاث الحديثة لأنظمة CSLR [17 ، 23] ثلاث خطوات رئيسية في أداء مهمة التعرف على المشكلة. أولاً ، أجروا استخلاص السمات المكانية ، ثم التقسيم الزمني ، وأخيراً تركيب الجملة باستخدام نموذج اللغة [35] ، أو استخدموا التعلم المتسلسل [17 ، 23]. استخدم هذا التعلم المتسلسل Bi-LSTM و CTC لتعدين العلاقة بين لمعان الإشارة في تسلسلات الفيديو. على الرغم من أنه يستخدم تعليقًا توضيحيًا ضعيفًا يحتوي على تسلسلات فيديو غير مقسمة لتحديد علامات اللمعان ، فقد أظهرت هذه الأساليب نتائج واعدة.
ومع ذلك ، استخدمت أحدث دراسة CLSR ذات الصلة والتي نفذت نهجًا متعدد الميزات [17] خمس ميزات في وقت واحد. يعتبر الأسلوب متعدد الميزات أثقل مقارنة باستخدام عدد أقل من الميزات [19]. لا يمكن لهذا الأسلوب أيضًا التعامل مع الإطارات المشوشة من تسلسل الفيديو التي تحتوي على معلومات غير واضحة ، مثل شكل اليد الباهت بسبب الحركة السريعة. علاوة على ذلك ، فإن الاعتماد على التعلم المتسلسل المستند إلى RNN قد يواجه مشاكل مع التسلسلات الطويلة وقد يفقد السياق العام [20].

ملحق Cistanche بالقرب مني - تحسين الذاكرة
يهدف البحث الحالي إلى تحسين الأداء من خلال إضافة آلية الانتباه الذاتي [21،22] التي يمكنها التعامل مع تسلسلات أطول لمعرفة السياق العالمي. يعتمد الاهتمام الذاتي على البحث المبكر [20] الذي أظهر أن الاهتمام الذاتي له ميزة القدرة على التعامل مع التبعيات الطويلة. ومع ذلك ، فإن هذا الاهتمام الذاتي أسهل في تعلم مسار أقصر مقارنة بالمسار الأطول ذي التبعيات الطويلة. في أعمال CLSR السابقة [21،22] يمكن أن يساعد الاهتمام الذاتي الشبكة على تعلم الميزة بشكل أكثر فعالية.
لذلك ، في هذه الورقة ، نقدم نموذجًا جديدًا متعدد الميزات منتبهًا للموضع الزماني المكاني. هذا النموذج المقترح يستخرج بشكل فعال الميزات الهامة ويتعلم التسلسل بشكل أفضل من خلال إعطاء معلومات مهمة باستخدام آلية الانتباه الذاتي من متعدد الميزات. يتم تنفيذ جميع العمليات في نهج شامل.
3. الطريقة المقترحة
يفصل هذا القسم التقنيات الأساسية لنموذجنا المقترح لـ CSLR. لذلك ، نبدأ هذا القسم بشرح نظرة عامة على نموذجنا المقترح. بالإضافة إلى ذلك ، نقدم مزيدًا من التفاصيل حول كل مكون رئيسي ، بما في ذلك الوحدة المكانية ، والوحدة الزمنية ، ووحدة التعلم التسلسلي. بالإضافة إلى ذلك ، نشرح أيضًا وحدة الانتباه المقترحة لمساعدة النموذج على التعلم بشكل أفضل. أخيرًا ، يمكننا دمج إطار العمل للتدريب والاستنتاج في نموذجنا المقترح.
3.1. نظرة عامة على الإطار
بالنظر إلى إدخال الفيديو ، يهدف نموذجنا المقترح إلى توقع العلامة المقابلة في جملة لمعان صحيحة. تولد الوحدة الأولى ميزات مكانية متعددة ، مثل ميزات الإطار الكامل ونقطة المفاتيح لكل إطار T من الفيديو. بعد ذلك ، تسمح لنا الوحدة الزمنية باستخراج الارتباطات الزمنية للسمات المكانية بين الإطارات لكل من التدفقات. كخطوة أخيرة ، تم ربط الشبكات المكانية والزمانية بذاكرة ثنائية الاتجاه قصيرة المدى (Bi-LSTM) و CTC للتعلم المتسلسل والاستدلال. بعد ذلك ، نشرح مكوناتنا الرئيسية بمزيد من التفصيل وبشكل متتابع. يتم عرض نظرة عامة على الهندسة المعمارية المقترحة لدينا في الشكل 1.

الشكل 1. يتكون الهيكل العام للطريقة المقترحة من ثلاثة مكونات: وحدة مكانية ، وحدة زمنية ، ووحدة تعليم تسلسل. تأخذ الوحدة المكانية أولاً تسلسل الصور لاستخراج ميزات إطار الحكمة ثم تطبق الوحدة الزمنية لاستخراج الميزات الزمنية. بعد ذلك ، يتم إرسال الميزات الزمنية إلى وحدة التعلم التسلسلي لإجراء التنبؤ بالكلمات وتكوينها في جملة
3.2 الوحدة المكانية
تستغل الوحدة المكانية ميزة الإطار الكامل وميزات النقطة الرئيسية ، كما هو موضح في الشكل 2. تستخدم هذه الوحدة بنية شبكة 2D-CNN باعتبارها العمود الفقري ، ويتم اختيار ResNet50 لالتقاط الميزات المتعددة. يعد ResNet50 أكثر فاعلية لاستخدامه مقارنة بهندسة ResNet الحديثة من حيث الوقت مع الحصول على نتيجة مماثلة [36،37]. يستخدم RGB ResNet50 مباشرة ، بينما يتم الحصول على نقطة المفتاح بواسطة HRNet [38] من إطار الفيديو ويتم استخراجها باستخدام ResNet50 للحصول على ميزات نقطة المفاتيح.

الشكل 2. تستخدم بنية الوحدة المكانية مدخلات متعددة الدفق. دفق RGB كميزة كاملة الإطار وتدفق نقاط المفاتيح كميزة نقطة رئيسية.
3.2.1. ميزة الإطار الكامل
طبقنا خطوات المعالجة المسبقة الخاصة بنا على بيانات RGB ثم أدخلنا بياناتنا في النموذج. ثم نضعها كمدخلات كاملة الإطار في هندستنا. يوضح الشكل 3 الرسم التوضيحي لصورة RGB الأصلية على الجانب الأيسر والصورة التي تم اقتصاصها على الجانب الأيمن. يتم استخدام الصورة التي تم اقتصاصها كمدخلات بواسطة النموذج. يوضح هذا خطوة المعالجة المسبقة التي تقلل الأجزاء الأقل أهمية من الصورة وتضع مزيدًا من التركيز على الموقع. يستخدم هذا القص طريقة اقتصاص عشوائية من [12] لزيادة مجموعة البيانات. يتم استخراج ميزة الإطار الكامل من الصورة التي تم اقتصاصها لكل إطار في التسلسل باستخدام ResNet50.

الشكل 3. ميزة الإطار الكامل باستخدام صورة RGB ، (الصورة اليسرى) هي الصورة الأصلية ، و (الصورة اليمنى) هي الصورة التي تم اقتصاصها لضبط النموذج المقترح
3.2.2. ميزات Keypoint
استخرجنا ميزات النقطة الأساسية في الوحدة المكانية من بيانات RGB لكل إطار في إدخال الفيديو. تلعب جودة الميزات الأساسية دورًا مهمًا في نموذجنا المقترح ، لذلك نحتاج إلى استخدام نهج قوي ، مثل HRNet [38]. استخدمنا HRNet المدربة مسبقًا [38] لتقدير جميع نقاط الجسم الأساسية البالغ عددها 133 ، واستخدمنا 27 من أصل 133 نقطة رئيسية من نتائجه. كما هو مبين في الشكل 4 ، الجانب الأيسر هو النقطة الرئيسية الأصلية للجزء العلوي من الجسم ، والجانب الأيمن هو النقاط الرئيسية الـ 27 المختارة للجزء العلوي من الجسم. تشمل هذه النقاط الـ 27 الرئيسية الرسغين والمرفقين والكتفين والرقبة واليدين والأصابع.

الشكل 4. ميزات Keypoint لمجموعة بيانات PHOENIX-RWTH [33،39] ، (الصورة اليسرى) استخراج من صورة RGB ، و (الصورة اليمنى) هي النقطة الأساسية المحددة المستخدمة من قبل النموذج المقترح.
3.3 الوحدة الزمنية
تهدف الوحدة الزمنية إلى تعلم المعلومات الزمانية المكانية من الوحدة المكانية. يتم إنشاء الوحدات الزمنية عن طريق التجميع الزمني المكدس لكل تيار. كما هو مبين في الشكل 5 ، تتكون وحدة التجميع الزمني من طبقة التفاف زمنية وطبقة تجميع لاستخراج الميزات من المدخلات المتسلسلة.

الشكل 5. تتكون بنية الوحدة المؤقتة من 1D-CNN مكدسة وطبقة تجميع مدمجة مع وحدة الانتباه. العمل بالتوازي لكل من تدفقات الميزات المتسلسلة في نهاية الطبقات المكدسة ، وإنتاج ميزة زمنية واحدة بطول تسلسل أصغر بأربع مرات.
الإدخال عبارة عن قائمة بالعديد من الميزات المكانية من المرحلة السابقة. يتم الحصول على الميزة الزمنية باستخدام طبقة الالتواء الزمنية وهي طبقة تلافيفية أحادية الأبعاد واحدة بنفس أطوال المدخلات والمخرجات ، متبوعة بطبقة تجميع مفردة تقلل الحجم إلى النصف. يعد استخدام هاتين الطبقتين الزمنيتين المكدستين للتجميع هو أفضل تكوين ، وفقًا للأعمال السابقة [12]. بعد كل تجميع زمني ، نقوم بتضمين وحدة اهتمام سيتم شرحها بالتفصيل في القسم 3.4. في النهاية ، نجمع ناتج التجميع الزمني من كلا الدفقين.
3.4. وحدة الانتباه
يحتوي الفيديو على إطارات متعددة حيث تكون بعض أجزاء الصورة ضبابية في بعض الأحيان. تحتوي مجموعة بيانات RTWH-PHOENIX [33،39] على إطارات معيبة أكثر من مجموعة بيانات CSL [8،40،41]. يحدث هذا عندما تكون الحركة سريعة جدًا ، مما يؤدي إلى إنشاء صورة ضبابية وينتج عن موقع نقطة المفتاح الخطأ. يعتبر هذا الإطار معيبًا وقد يؤدي إلى سوء تفسير كل من ميزات RGB و keypoint. يوضح الشكل 6 توضيحًا للإطارات المعيبة في مجموعة بيانات RTWH-PHOENIX [33]. من أجل التعامل مع هذه المشكلة ، أضفنا طبقة انتباه.

الشكل 6. رسم توضيحي للإطارات المعيبة في مجموعة بيانات RWTH-PHOENIX [33،39]. بعض النقاط الرئيسية في منطقة اليد في الموضع الخاطئ بسبب الصور الباهتة.
باستخدام خوارزمية CTC ، يتم إجراء محاذاة المسار مع وضع العلامات الخاصة به باستخدام ملصق فارغ وإزالة التسميات المكررة. تفضل CTC التنبؤ بالتسميات الفارغة بدلاً من حدود اللمعان عندما لا تستطيع تمييز حدود المصطلحات ، ولكن أيا من النتائج لا تكون مقنعة. هذا يقود الشبكة إلى استخدام CTC لإنتاج طفرات في النتائج عند التحليل والتعلم والتنبؤ [42،43]. بشكل عام ، تبحث خسارة CTC عن الإطارات الرئيسية ، والنتيجة الأخيرة هي التنبؤ بإطار رئيسي معين يحتمل أن يكون تسمية فارغة أو تسمية غير فارغة. إذا توقع اللمعان نفس الملصق أو الملصق الفارغ على التوالي ، فإنه ينتج عنه نفس الإخراج. ومع ذلك ، إذا كان هناك ملصق إدخال بين نفس الملصق ، حتى إذا كان هناك خطأ واحد فقط ، فإنه يؤدي إلى خسارة أكبر بكثير. هنا تساعد إضافة طبقة الانتباه في تحديد التسلسل الزمني المهم قبل استخدامها للتعلم المتسلسل.
تستخدم وحدة الانتباه آلية متعددة الرؤوس للانتباه الذاتي [20]. يتم استخدام الوحدة متعددة الرؤوس لتشغيل العديد من آليات الانتباه المتوازي في نفس الوقت. يعمل الاهتمام متعدد الرؤوس بشكل مستقل للتركيز على التبعيات قصيرة الأجل أو التبعيات طويلة الأجل في رأس منفصل. ثم يتم تسلسل كل ناتج خطيًا وتحويله إلى الشكل المطلوب.
في الوقت نفسه ، تهتم آلية الانتباه الذاتي متعددة الرؤوس بالمعلومات من فضاءات التمثيل الفرعية المتعددة ، اعتمادًا على تاريخ الملاحظات. للتبسيط ، نشير إلى تسلسل الإدخال كـ X. رياضيًا ، لنموذج الانتباه أحادي الرأس ، مع الأخذ في الاعتبار الإدخال X t - T plus 1: t=[X t - T plus 1، · ·، X t ] ∈ RT × N × P ، تم الحصول على ثلاث فضاءات فرعية ، وهي فضاء الاستعلام الفرعي Q ∈ RN × dq ، والفضاء الفرعي الرئيسي K ∈ RN × dk ، والفضاء الفرعي للقيمة V ∈ RN × dv. يمكن صياغة عملية تعلم الفضاء الجزئي الكامن على النحو التالي [20]:
س=XWQ، K=XWK، V=XWV،
بعد ذلك ، يتم استخدام الانتباه المحسّن للمنتج النقطي لحساب ناتج الانتباه على النحو [20]:
الانتباه (Q، K، V)=حتى f tmaxQKT / p dkV ،
علاوة على ذلك ، إذا كان لدينا العديد من الرؤوس التي تتبع بشكل متزامن التمثيلات المتعددة للمدخلات ، فيمكننا الحصول على نتائج أكثر صلة في نفس الوقت. تتمثل الخطوة الأخيرة في تجميع كل الرؤوس وعرضها مرة أخرى لحساب النتيجة النهائية [20]:
MultiHead (Q، K، V)=Concat (head1، ...، heads) WO،
head {0}} عناية (Qi، Ki، Vi)،
حيث Qi=XWQ i و Ki=XWVi و WO ∈ R hd × dmodel. أخيرًا ، يمكنه تحديد الجزء المهم من تسلسل الميزات لأنه ليست كل المعلومات في التسلسل مهمة.
كما هو موضح في الشكل 7 ، نستخدم وحدة الانتباه في العديد من التكوينات. يتم وضع وحدة الانتباه الأولى في نهاية الوحدة المكانية ، بينما يتم وضع وحدتي الانتباه الثانية والثالثة في الوحدة الزمنية. يتم وضع وحدة الانتباه الثانية التي تسمى الوحدة الزمنية المبكرة ، بعد الكتلة الأولى من التجميع الزمني كمدخل ، في حين يتم وضع وحدة الانتباه الزمني الثالثة ، التي تسمى وحدة الانتباه الزمني المتأخر ، بعد الكتلة الثانية من التجميع الزمني.

الشكل 7. يتم تضمين وحدات الانتباه في الوحدات المكانية والزمانية في تكوينات مختلفة.






