AttentionMNIST: مجموعة بيانات لتتبع الانتباه بنقرة الماوس للتعرف على الأرقام المكتوبة بخط اليد والأبجدية
Feb 22, 2024
أبلغت النماذج المتعددة القائمة على الاهتمام والتي تتعرف على الأشياء من خلال سلسلة من اللمحات عن نتائج تتعلق بالتعرف على الأرقام المكتوبة بخط اليد. ومع ذلك، لا تتوفر بيانات تتبع الانتباه للتعرف على الأرقام المكتوبة بخط اليد أو الحروف الأبجدية. إن توفر مثل هذه البيانات من شأنه أن يسمح بتقييم النماذج القائمة على الاهتمام مقارنة بالأداء البشري. نقوم بجمع بيانات تتبع انتباه النقر بالماوس من 382 مشاركًا يحاولون التعرف على الأرقام والحروف الهجائية المكتوبة بخط اليد (الأحرف الكبيرة والصغيرة) من الصور عبر أخذ عينات تسلسلية. يتم عرض الصور من مجموعات البيانات القياسية كمحفزات. تتكون مجموعة البيانات المجمعة، والتي تسمى AttentionMNIST، من سلسلة من مواقع العينات (النقر بالماوس)، prتسمية (ملصقات) الفئة المقررة في كل عينة، ومدة كل عينة. في المتوسط، لاحظ المشاركون 12.8% فقط من الصورة للتعرف عليها. نقترح نموذجًا أساسيًا للتنبؤ بالموقع والفصل (الفصول) الذي سيختاره المشارك في أخذ العينات التالي. عندما يتعرض المشاركون لنفس المحفزات والظروف التجريبية، فإن نموذج التعزيز القائم على الاهتمام الذي تم الاستشهاد به كثيرًا لا يرقى إلى مستوى الكفاءة البشرية.

سيستانش صينيعشب- منتجات الوقاية من مرض الزهايمر
اكتسبت نماذج التعلم الآلي (ML) التي تتعرف على الأشياء من خلال سلسلة من اللمحات الاهتمام في السنوات الأخيرة بسبب قابليتها للتوسع وكفاءتها. أبلغت العديد من هذه النماذج، مثل 1-7، عن نتائج تجريبية على مجموعة بيانات MNIST القياسية للتعرف على الأرقام المكتوبة بخط اليد. لسوء الحظ، لا تتوفر أي بيانات لتتبع الانتباه لـ MNIST. وهذا يمنع تقييم النماذج القائمة على الاهتمام مقارنة بالأداء البشري. لقد وقعنا في هذه الفجوة من خلال جمع مجموعة بيانات من المشاركين البالغين الذين يحاولون التعرف على الأرقام والحروف الهجائية المكتوبة بخط اليد من الصور عبر أخذ العينات التسلسلية. على عكس تتبع انتباه حركة العين (emAT)، يقوم المشارك بالنقر فوق الموقع في الصورة الذي يريد رؤيته (شكل من أشكال تتبع انتباه النقر بالماوس (mcAT)). بعد ذلك مباشرة، يختار الفئة (الفئات) التي يتوقع أن ينتمي إليها الكائن بناءً على ملاحظاته حتى الآن. وبالتالي، في كل حلقة أخذ عينات، تتكون بياناتنا من موقع الصورة المحدد، وتسمية (ملصقات) الفصل المتوقعة، والوقت الذي يستغرقه المشارك منذ الحلقة الأخيرة. بعد كل صورة يحصل المشارك على مكافأة حسب أدائه (الدقة والكفاءة).

فوائد cistanche tubulosa-مضاد لمرض الزهايمر
مزايا mcAT على emAT للتعرف على الأرقام والأبجدية المكتوبة بخط اليد.
(1) يحتوي اللحم على تباين كبير داخل وبين الأشخاص في موقع التثبيت، خاصة بالنسبة للمحفزات الثابتة (الصور)8،9. لذلك هناك حاجة إلى قدر كبير من بيانات تثبيت العين للوصول إلى استنتاجات ذات دلالة إحصائية. لا يكون mcAT عرضة لبعض مصادر الضوضاء التقنية الشائعة في بيانات تتبع العين. (2) يمكن أن تنجم حركات العين عن آليات إرادية وغير إرادية. لتسهيل اتخاذ القرار المعتمد على المهمة، نقدم للمشاركين الوقت والسياق وإشارات التعزيز الكافية، والتي يمكن أيضًا تقديمها إلى نموذج تعلم الآلة. (3) تعتمد دقة ودقة بيانات emAT على جهاز تعقب العين في حين أن نفس بيانات mcAT مستقلة عن أي جهاز. (4) من الصعب مزامنة حركات العين مع اختيار صفه. للتغلب على هذا، في حالتنا، يتم تحديد موقع أخذ العينات والفصل (الفئات) في نفس الحلقة. (5) أخيرًا، تسمح طريقتنا بجمع البيانات باستخدام Amazon Mechanical Turk (MTurk)، كما في 12،13، وهي فعالة من حيث التكلفة والوقت، ويمكن تكرارها بسهولة.
مساهمات.
نقوم بجمع مجموعة بيانات mcAT، تسمى AttentionMNIST، باستخدام MTurk من 382 مشاركًا، تمت مكافأتهم على التعرف بدقة وكفاءة على الأرقام والحروف الهجائية المكتوبة بخط اليد (الأحرف الكبيرة والصغيرة) من الصور عبر أخذ عينات تسلسلية. يتم عرض الصور من مجموعات البيانات القياسية (MNIST، EMNIST) كمحفزات. في المتوسط، يتم تسجيل 169.1 استجابة لكل فئة أرقام/أبجدية. باستخدام مجموعة البيانات هذه، نعرض ما يلي: • في المتوسط، يحتاج المشاركون إلى 4.2 و4.7 و4.9 عينة للتعرف على الحروف الأبجدية الرقمية والأحرف الكبيرة والصغيرة، والتي تتوافق فقط مع 11.3% و13.4% و13.7% من مساحة الصورة على التوالي. . تزداد دقة التصنيف مع عدة عينات. • يمكن للنموذج، الذي يتم تقديمه كخط الأساس، التنبؤ بالفصل (الفئات) والموقع الذي سيختاره المشارك في حلقة أخذ العينات التالية بدقة تبلغ 74.4% و67.7% على التوالي، وكلاهما متوسط على جميع العينات ومجموعات البيانات. تزداد دقة التنبؤ بالفئة وتنخفض دقة التنبؤ بالموقع مع زيادة العينات. • عند التعرض لنفس المحفزات والظروف مثل المشاركين لدينا، يتطلب نموذج الانتباه المتكرر القائم على التعزيز (RAM) 3 الذي تم الاستشهاد به كثيرًا 3.7 و8.5 و7.6 عينة للتعرف على الحروف الأبجدية الرقمية والأحرف الكبيرة والصغيرة، والتي تتوافق مع 8.9% ، 21.0%، 18.7% من مساحة الصورة على التوالي. نماذج التعزيز الأخرى القائمة على الاهتمام (على سبيل المثال، 1،2،4،5،7،14) يمكن تقييمها بالمثل بالمقارنة مع الأداء البشري.

ملحق Cistanche بالقرب مني - تحسين الذاكرة
انقر هنا لعرض منتجات Cistanche لتحسين الذاكرة والوقاية من مرض الزهايمر
【اطلب المزيد】 البريد الإلكتروني: cindy.xue@wecistanche.com / تطبيق Whats: 0086 18599088692 / Wechat: 18599088692
الأعمال ذات الصلة
يشبه التسلسل الزمني لنقرات الماوس في mcAT مسار حركة العين. يمكن لـ mcAT أن يحل محل emAT بشكل فعال حيث أنهما مرتبطان بشكل كبير 10،12،13،15،17. تم استخدام أنواع مختلفة من المحفزات في دراسات mcAT، مثل صور الكائنات الحية وغير الحية، وصور المشاهد الطبيعية، وصفحات الويب الثابتة، وتخطيطات صفحة البحث، وقائمتين من السلاسل الأبجدية الرقمية للمقارنة البصرية. ومع ذلك، لم يتم استخدام mcAT في مهام تصنيف الأرقام/الأبجدية المكتوبة بخط اليد أو تقييم نماذج التصنيف القائمة على الاهتمام. استخدمت دراسات MCAT ميزات مثل وقت الاتصال، وتكرار التثبيت النسبي في مجالات الاهتمام (AOIs)، والنسبة النسبية للموضوعات التي نقرت مرة واحدة على الأقل في AOI10، وعدد عمليات التثبيت لكل تجربة، وإعادة التثبيت داخل التجارب، وأوقات المكوث، ومسارات المسح. ، خرائط التثبيت12،13، AOI ونمط تدفق المعلومات16. يشكل تسلسل مواقع النقر ذات الطابع الزمني وتسميات الفئات المتوقعة البيانات الأولية اللازمة لتقييم كفاءة ودقة النماذج القائمة على الاهتمام أو البشر في مهام التصنيف. يمكن استخلاص ميزات مختلفة من هذه البيانات. مجموعة بيانات MCAT الخاصة بنا، مع فوائد متعددة مقارنة ببيانات تتبع العين، تسد فجوة حاسمة في أبحاث النماذج القائمة على الاهتمام في الذكاء الاصطناعي والتعلم الآلي ومجالات أخرى. ستسمح مجموعة البيانات الخاصة بنا بتقييم النماذج القائمة على الاهتمام مقارنة بالأداء البشري. ومن بين أمور أخرى، سيسهل ذلك تطوير أنظمة فعالة للتعرف البصري على الأحرف في الوقت الفعلي والتي لها استخدام واسع النطاق في الممارسة العملية (انظر على سبيل المثال 18-20). يمكن افتراض واختبار المبادئ التي توجه التثبيتات البصرية باستخدام مجموعة البيانات الخاصة بنا. ويمكن تطبيق المبادئ الناجحة لتطوير أنظمة لمهام التعرف البصري في العالم الحقيقي حيث تكون الكفاءة هي الاهتمام الرئيسي، كما هو الحال في القيادة الذاتية.
بيانات
تتكون بياناتنا من سلسلة من حلقات T لكل مشارك. تتكون البيانات من كل حلقة من (1) الموقع في الصورة التي نقر عليها المشارك (نقرة واحدة على الصورة لكل حلقة)، (2) الفصل (الفصول) الذي اختاره المشارك، و (3) الوقت الذي يستغرقه المشارك لتسجيل العينة الحالية (أي الوقت المنقضي بين النقرات الأخيرة والحالية في الصورة). سيشرح هذا القسم عملية جمع البيانات لدينا بما في ذلك اختيار المحفزات والمشاركين والمهام المرئية وتسجيل الأداء وتصفية البيانات.
اختيار المحفزات. يتم اختيار المحفزات من الصور في مجموعتي بيانات مرجعية: (1)
تتكون مجموعة بيانات MNIST21 من 70،000 صور مصنفة (28×28 بكسل) مكونة من 10 أرقام مكتوبة بخط اليد {0، 1، ...، 9}. (2)
تتكون مجموعة بيانات EMNIST22 من 145,600 صورة (28×28 بكسل) من الحروف الهجائية الإنجليزية المكتوبة بخط اليد بأحرف كبيرة وصغيرة، مما يشكل فئة متوازنة. يتم تصنيف جميع الصور بواحدة من 26 فئة {a، b، ...، z}. ومع ذلك، لا ترتبط التسمية بالأحرف الكبيرة أو الصغيرة بأي صورة. من كل فئة، نختار 15 رقمًا جيدًا من MNIST و15 أبجدية جيدة التكوين من مجموعات بيانات EMNIST الكبيرة والأحرف الصغيرة. يشبه الرقم أو الأبجدية جيدة التكوين معيار فئته. وبالتالي، نقدم محفزات من مجموعة مكونة من 15(10 + 26 + 26)=930 صورة فريدة، مع 15 صورة تنتمي إلى كل فئة من الفئات الـ 62. يتم اختيار 930 صورة جيدة التشكيل على النحو التالي:
الخطوة 1: قم بتطبيع كل صورة باستخدام الحد الأدنى والحد الأقصى لقياس الكثافة بين 0 و1.
الخطوة 2: قم بتسمية صور EMNIST جيدة التنسيق بأحرف كبيرة أو صغيرة. لكل فئة أبجدية، يتم تحديد وتسمية أبجدية جيدة التكوين من الصور الكبيرة والصغيرة يدويًا. يتم حساب تشابه جيب التمام لجميع الصور التي تنتمي إلى تلك الفئة مع الصورتين المسمىتين. يتم تعيين الصور التي تكون أعلى من عتبة تشابه جيب التمام (التي تم اختيارها تجريبيًا كـ 0.8) بأحرف كبيرة أو صغيرة.
الخطوة 3: حساب متوسط الصور التي تنتمي إلى كل فئة. تشكل الصورة المتوسطة للفئة معيارها. تكون الصورة مؤهلة لتكون حافزًا إذا كان تشابه جيب التمام مع الصورة المتوسطة لفئتها أكبر من العتبة المحددة تجريبيًا (0.7 لـ MNIST، 0.75 لـ EMNIST).
الخطوة 4: من بين الصور المؤهلة، يتم اختيار 15 صورة من كل فئة يدويًا بناءً على مدى جودة تشكيلها. كل صورة، في الأصل 28 × 28 بكسل، تم تقليلها إلى 27 × 25 عن طريق إزالة البيكسلات القريبة من الحدود حيث لا يوجد بها اختلاف في الكثافة. يتم حساب متوسط هذه الصور الـ 15 لكل فئة من الفئات الـ 62. نشير إلى هذه الصور المتوسطة كـ I1، I2، ...، In لفئات n في كل مجموعة بيانات.
مشاركون.
شارك في دراستنا ما مجموعه 382 فردًا بالغًا متميزًا. لم يتم استخدام معايير الاختيار. يمكن للمشارك الرد على صور متعددة. تم تسجيل متوسط 169.1 إجابة لكل فصل من الفصول الـ 62.

فوائد cistanche tubulosa-مكافحة مرض الزهايمر
مهمة بصرية.
يظهر الشكل 1 واجهة MTurk لمهمتنا المرئية. تعرض لوحة بحجم 270 × 250 صورة خلفية منخفضة الكثافة في جميع الأوقات. يتم تكبير حجم الخلفية وصور التحفيز عشر مرات إلى 270 × 250. يتم محاذاة وسط اللوحة القماشية مع مركز الصور. الخلفية في البداية، الخلفية هي متوسط جميع الصور في مجموعة البيانات التي يتم رسم التحفيز منها. بعد الحلقة الأولى، الخلفية هي متوسط جميع الصور من مجموعة الفئات التي اختارها المشارك في الحلقة الأخيرة. في العالم الحقيقي، يتم الحصول على سياق موقع وحجم واتجاه الرقم أو الأبجدية من الكتابة في جوارها، وهو أمر مفقود هنا. عندما أجرينا تجاربنا على خلفية فارغة، غالبًا ما أخذ المشاركون عينات من مواقع الصورة التي لا تحتوي على أي جزء من الجسم. تم احتواء هذا السلوك من خلال عرض الصورة المتوسطة للفئة (الفئات) المحددة في خلفية منخفضة الكثافة وتقليل حجم جميع صور MNIST وEMNIST من 28 × 28 بكسل إلى 27 × 25. في كل مرة يختار فيها المشارك موقعًا في اللوحة من خلال النقر عليه، يتم الكشف عن رقعة بحجم 50 × 50 بكسل متمركزة في ذلك الموقع من صورة التحفيز. يستمر عرض التصحيح الذي تم الكشف عنه حتى الحلقة الأخيرة. تتكون مهمة المشارك من ثلاث خطوات في كل حلقة t (t=1, ..., T):
الخطوة 1: انقر في أي مكان في اللوحة مقاس 270 × 250 للكشف عن التصحيح الذي يريد أخذ عينات منه. يتم قبول النقرة الأولى فقط.
الخطوة 2: التعرف على الأرقام/الأبجدية من جميع العينات التي تمت ملاحظتها حتى الآن. يمكن للمشارك تحديد فئات متعددة وسيتعين عليه اختيار فصل واحد على الأقل من قائمة الفئات الموضحة أسفل اللوحة القماشية.
الخطوة 3: انقر على "التالي" في أسفل الشاشة للمتابعة. لاستنتاج الفصل بدقة وسرعة، سيتعين على المشارك اختيار المواقع بحكمة نظرا لملاحظاته حتى الحلقة الحالية. لا يوجد حد زمني للحلقة. ومع ذلك، فإننا نحدد الوقت الإجمالي لحلقات T من الصورة بست دقائق. اخترنا T=12 نظرًا لأن الأعمال التي تم الاستشهاد بها كثيرًا فيما يتعلق بالتعرف على الكتابة اليدوية أو إنشاؤها على أساس الاهتمام قد استخدمت أقل من 12 لمحة (على سبيل المثال، يمكن لـ RAM3 التعرف على أرقام MNIST خلال 7 لمحات، ويمكن لـ DRAW23 إنشاء أرقام MNIST خلال 11 لمحة)، و يستطيع البشر التعرف على الأرقام والحروف الهجائية المكتوبة بخط اليد في أقل من 12 لمحة.
تسجيل الأداء. يتم منح درجة للمشارك بناءً على دقته وكفاءته من حيث عدد العينات التي تمت ملاحظتها. فلتكن مجموعة الحصص التي اختارها في أي حلقة ر. عشرة، درجته في t هي:

الشكل 1. واجهة MTurk الخاصة بنا كما يراها أحد المشاركين. يتم عرض العينة الثانية لأبجدية EMNIST ذات الأحرف الكبيرة.

حيث |.| يدل على أصل مجموعة. مجموع الدرجات الممنوحة في حلقات T هي h {{0}} T t=1 Pt. ولذلك، فإن الحد الأقصى الذي يمكن أن يسجله الشخص في حلقات T هو T إذا اختار دائمًا الفصل الصحيح فقط. الحد الأدنى الذي يمكن أن يسجله الشخص في حلقات T هو صفر إذا اختار دائمًا مجموعة من الفصول التي لا تتضمن الفصل الصحيح. لذا، 0 أقل من أو يساوي h أقل من أو يساوي T. وكلما قام المشارك باختيار الفصل الصحيح، كلما زادت درجاته. وبالتالي، فإن آلية التسجيل هذه تأخذ في الاعتبار دقة التعرف وكفاءة أخذ العينات. إن محاولة تعظيم النتيجة عن طريق اختيار فصل واحد فقط من الحلقة الأولى سيكون محفوفًا بالمخاطر حيث سيتم منح درجة صفر إذا لم يكن الفصل الصحيح، في حين سيتم منح درجة أكبر من الصفر إذا اختار المشارك عدة فصول ( حتى جميع الفئات) التي تتضمن الفصل الصحيح. وهذا من شأنه أن يحفز المشارك على الاستجابة بناء على الطبقات المحتملة في ذهنه في أي حلقة. يتم الكشف عن النتيجة الممنوحة في كل حلقة فقط عند الانتهاء من حلقات T للامتناع عن تقديم أي تلميح للمشارك. في MTurk، المكافأة التي يحصل عليها المشارك مقابل الصورة تتناسب مع مجموع درجاته، h.
تصفية البيانات.
إذا كانت نتيجة المشارك في الحلقة النهائية (أي T-th) لصورة التحفيز صفر، فسيتم تجاهل بياناته المسجلة لتلك الصورة. يتم أيضًا تجاهل البيانات إذا ترك أحد المشاركين المهمة غير مكتملة. باستخدام معايير الاختيار هذه، حصلنا على استجابات على 1736 محفزًا من MNIST، و4431 محفزًا من أحرف EMNIST الكبيرة، و4315 محفزًا من أحرف EMNIST الصغيرة؛ أي 169.1 استجابة لكل فصل في المتوسط.
نماذج وطرق الاستفادة من البيانات
في هذا القسم، نوضح فائدة البيانات المجمعة من خلال (4.1) توفير نموذج أساسي للتنبؤ بسلوك المشارك، و(4.2) توضيح كيف يمكن مقارنة نموذج التعزيز الحالي القائم على الاهتمام بالتعرف على الأرقام البشرية/الأبجدية أداء. خط الأساس للتنبؤ بالسلوك. يتكون السلوك في أي حلقة من اختيار الموقع واختيار الفصل. وبما أن العينة تحتوي على كميات مختلفة من المعلومات لمراقبين مختلفين، أو حتى لنفس المراقب في أوقات مختلفة9، فإن التنبؤ بسلوك كل مشارك يعد مشكلة صعبة. دع n هو عدد الفئات في مجموعة البيانات، ηt هي المجموعة المفردة التي تحتوي على الفئة الحقيقية لصورة التحفيز عند t، ct هي مجموعة الفئات و lt هو الموقع الذي اختاره المشارك في t، لتكون ملاحظته في t، و1:t يدل على التسلسل 1، 2، ...، t. حتى أي وقت، ملاحظات المشارك هي o1:t والمواقع التي اختارها هي l1:t. نقوم بصياغة مشكلة التنبؤ بسلوك المشارك على النحو التالي: توقع الفصل تقدير احتمالية i∈ct (i=1, 2, ..., n) بالنظر إلى o1:t وl1:t، أي P( ط ∈ ط|o1:t، l1:t). التنبؤ بالموقع قم بتقدير احتمالية lt+1 بالنظر إلى o1:t، l1:t وct، أي P(lt+1|o1:t, l1:t,ct). التنبؤ الطبقة. للتنبؤ بالفئة التي سيختارها المشارك في الحلقة t، نحسب احتمال أن ينتمي حافز الصورة عند t إلى الفئة I بالنظر إلى المواقع المحددة للمشارك l1:t والملاحظات المقابلة o1:t، على النحو التالي:

حيث Ii هو متوسط صور المحفزات (27 × 25) التي تنتمي إلى الفئة i، I ′ هي صورة مقاس 27 × 25 تحتوي على o1:t عند l1:t، · تشير إلى المنتج العددي، و.تشير إلى القاعدة الإقليدية. جميع شدة البكسل غير سلبية. في أي حلقة t، تشكل أعلى الفئات المحتملة k من توزيع المعتقدات P(i|o1:t, l1:t) مجموعة الفئات، ˆct، التي تنبأ بها نموذجنا، حيث k=|ct|. يتم قياس دقة التصنيف باستخدام مؤشر Jaccard (JI). يقيس JI التشابه بين مجموعتين، X وY، على النحو التالي: J(X, Y) {{10}} |X ∩ Y|/|X ∪ Y|. يحد JI بين 0 و1؛ إذا X=Y، J(X، Y)=1. في أي حلقة t، تكون دقة التصنيف للمشارك J(ηt,ct) بينما تكون دقة نموذجنا J(ηt,ˆct). نظرًا لمقامه، فإن JI يعاقب أكثر مع زيادة عدد العناصر في المجموعة المتوقعة (ct أو ˆct) التي ليست في ηt، وهي خاصية مرغوبة في حالتنا. يتم قياس التشابه بين تصنيف المشارك ونموذجنا بواسطة J (ct، ˆct). يتم تقييم نموذجنا أيضًا من حيث اختيار الفصل ودقة الرفض فيما يتعلق بكل مشارك. دع st=ct − ct−1 تكون مجموعة الفئات الجديدة المحددة و rt=ct−1 − ct تكون مجموعة الفئات المرفوضة من قبل المشارك عند t. وبالمثل، ˆst=ˆct − ct−1 هي مجموعة الفئات الجديدة المحددة، و ˆrt=ct−1 - ˆct هي مجموعة الفئات التي رفضها نموذجنا عند t. بعد ذلك يمكن مقارنة اختيار فئة النموذج ورفضها باختيار المشارك بواسطة J(st, ˆst) عندما |st| > 0 و J(rt, ˆrt) عند |rt| > 0، على التوالي. التنبؤ بالموقع. الفرضية من الناحية المثالية، يجب أن يكون توزيع المعتقدات على جميع الفئات أحادي الشكل (أي قمة واحدة فقط) وغاوسي رقيق (أي انحراف معياري صغير) في الشكل يشير إلى أن المشارك واثق من فئة (حالة) الحافز (البيئة). ومع ذلك، كما هو واضح من بياناتنا (المرجع. الشكل 2)، غالبًا ما يتم الخلط بين المشارك بين الفئات المتعددة، خاصة خلال الحلقات القليلة الأولى. في هذه الحالات، يكون لتوزيع معتقداته عدة قمم أو يكون غاوسيًا سمينًا. نحن نفترض أن هدف المشارك هو التقارب مع غاوسي أحادي الوسيلة ورقيق، ولتحقيق ذلك يقوم باختيار المواقع التي تقلل من احتمالية جميع الفئات باستثناء واحدة بشكل انتقائي. تؤدي هذه الفرضية إلى تقليل عدم اليقين بشأن الفئات (الحالات البيئية) وهو مبدأ معروف جيدًا يوجه العمل، بما في ذلك حركات العين.

الشكل 2. المدة وتوزيع الطبقة على جميع المشاركين والمحفزات التي تنتمي إلى الفئات '0'، 'أ'، و'أ'.
Te observations at certain locations in a stimulus image can discriminate between certain classes. Te observation at a location l might indicate that the numeral/alphabet belongs to class I and not to class j. Such locations are more salient than others in achieving a participant's goal. To sample such locations, a saliency map, Dij, is computed such that if l is salient, the observation at l is evidence to increase the probability of class I and decrease that of j. Mathematically, Dij = N (., σ ) ∗ g(.), where ∗ is the convolution operator, g(.) is a saliency scoring function, and N (., σ ) is a 5×5 Gaussian kernel with standard deviation σ = 6 to smooth the saliency scores. We denote the set of all saliency maps as D = {Dij: i, j ∈ {1, 2, ..., n}, i �= j}. A location l in a stimulus image is salient for class i with respect to class j if Dij(l)>θ، حيث تكون العتبة θ=0.5 × max(D) كمية عددية محددة تجريبيًا.
نحن نعتبر مقياسين غير متماثلين، التباعد والاختلاف Kullback-Leibler (KL)، مرشحين للدالة g. تباعد KL بالنظر إلى صورتين متوسطتين تم تسويتهما، Ii وIj، فإن تباعد KL KL(Ii, Ij) يقيس فقدان المعلومات عند استخدام Ij لتقريب Ii. يتم حساب ذلك لكل بكسل k as26: KL(Ii,k, Ij,k)=Ii,k log δ + Ii,k Ij,k+δ، حيث Ij,k هي شدة البكسل k من Ij، و δ هو ثابت التنظيم. عندما Ii,k=Ij,k, KL(Ii,k,Ij,k) → 0. الفرق بالنظر إلى صورتين متوسطتين تم تسويتهما، Ii وIj، يكون الفرق لكل بكسل k هو Diff (Ii,k, Ij,k)=Ii,k − Ij,k. عندما Ii,k=Ij,k, Diff (Ii,k, Ij,k)=0. أحد المشاركين غير متأكد من مجموعة الفصول التي اختارها في الحلقة الحالية. وبالتالي، للتنبؤ بالموقع، فإننا نأخذ في الاعتبار فقط خرائط الأهمية في D التي تتضمن الفئات الموجودة في ct. يتم التنبؤ بالموقع إذا كان بارزًا بناءً على خرائط الأهمية هذه ولم يتم تحديده من قبل المشارك مطلقًا. Tus، بالنظر إلى o1:t وl1:t وct، يتم توقع الموقع lt+1 على النحو التالي:

حيث Ŵ هي مجموعة 3-الصفوف التي تحتوي على الموقع المتوقع ˆl، والفئة التي تبرز فيها (i)، وفيما يتعلق بالفئة (j). يتم التنبؤ بالموقع بشكل صحيح إذا كان هناك ˆl, i, j � ∈ Ŵ مثل ˆl − lt+1 � < ɫ, I ∈ ct+1 و j /∈ ct{{3} }، حيث ɫ هي المسافة الإقليدية القصوى بين البكسل المركزي وأي بكسل في رقعة المراقبة. يظهر الكود الزائف للتنبؤ بالموقع في الخوارزمية 1. ويرد شرح تفصيلي للكود الزائف في القسم S1 من المادة التكميلية. (يمكن حساب التوزيع الاحتمالي، P(lt+1|o1:t, l1:t,ct) بافتراض أن درجة الأهمية للمواقع التي لا توجد في Ŵ تكون صفرًا، ثم تطبيع درجة الأهمية للجميع المواقع لمجموع الوحدة، إلا أن هذا الاحتمال لم يستخدم، حيث أن المعادلة (3) كافية لأغراض هذا البحث).

تقييم النماذج القائمة على الاهتمام.
كممثل للنماذج القائمة على الاهتمام، فإننا نعتبر نموذج الاهتمام المتكرر (RAM) الذي تم الاستشهاد به كثيرًا والذي يبلغ عن النتائج التجريبية على مجموعة بيانات MNIST. يقوم نموذج التعزيز بأخذ عينات من الصورة بشكل تسلسلي ويقرر مكان أخذ العينات بعد ذلك في كل لحظة أخذ عينات، مما يجعله مناسبًا للتقييم باستخدام البيانات المجمعة.
كبش
يصنف الصور باستخدام سلسلة من اللمحات. يتم اختيار الموقع التالي عشوائيًا من التوزيع المحدد بواسطة شبكة الموقع. يتم تدريب النموذج Te بشكل شامل من خلال تحقيق الهدف التالي 3:

حيث M هو عدد الحلقات، T هو عدد الملاحظات، xi 1:t هو تسلسل التفاعل الذي تم الحصول عليه عن طريق تشغيل العامل الحالي حتى I الحلقات، ui t هو الإجراء الحالي، θ هي مجموعة المعلمات القابلة للتدريب، Ri t هي المكافأة التراكمية، bt هو خط الأساس، و π(ui t|xi 1:t; θ ) هي السياسة. يمكن مقارنة سلوك ذاكرة الوصول العشوائي (RAM) بسلوك المشاركين من خلال مقارنة خرائط التثبيت التي تم الحصول عليها من تسلسل المواقع التي تنبأت بها ذاكرة الوصول العشوائي (RAM) وتلك التي اختارها المشاركون. يتم حساب خريطة الانعكاس عن طريق تعيين قيمة لكل موقع تساوي تكرار اختياره، ثم تسوية تلك القيم لإنشاء توزيع على جميع المواقع.
مقاييس لمقارنة خرائط التثبيت. بالنسبة للمقاييس التي تقارن خريطتي التثبيت، P وQ، نتابع عن كثب 26. نستخدم ثلاثة مقاييس قائمة على التوزيع: تباعد KL (KL)، ومعامل ارتباط بيرسون (CC)، والتشابه (SIM)، لمقارنة توزيع مواقع أخذ العينات من نموذج مع ذلك من المشاركين كما هو مسجل في البيانات المجمعة.
KL (المحدد مسبقًا) حساس للغاية للقيم الصفرية.
يمكن لـ CC تقييم العلاقة الخطية بين خريطتين كما يلي: CC(P, Q)=σ (P, Q) σ (P)σ (Q)، حيث σ هو التباين أو التباين المشترك. نظرًا لأن CC متماثل، فإنه يفشل في استنتاج ما إذا كانت الاختلافات بين خرائط التثبيت ناتجة عن إيجابيات كاذبة أو سلبيات كاذبة.
يتم قياس بطاقة SIM على أنها 26: SIM(P, Q)=k min(Pk, Qk)، حيث k Pk=k Qk=1. مثل CC، بطاقة SIM متماثلة وترث نفس العيب. كما أن بطاقة SIM حساسة جدًا للقيم المفقودة وتعاقب التنبؤات التي تفشل في حساب كثافة الحقيقة الأرضية.
البحوث البشرية والحيوانية.
قرر مجلس المراجعة المؤسسية في جامعة ممفيس أن هذه الدراسة لا تفي بتعريف مكتب حماية أبحاث الموضوعات البشرية لأبحاث الموضوعات البشرية ولا ينطبق عليها الجزء 46 من قانون اللوائح الفيدرالية. ومن ثم، فإن هذه الدراسة لا تتطلب موافقة أو مراجعة IRB.
النتائج التجريبية تحليل البيانات.
يمكن تصور البيانات المجمعة من حيث تسلسل توزيع المواقع المختارة (الشكل 3)، والفئات المختارة (الشكل 2)، والمدة بين الحلقات المتعاقبة (الشكل 2). هذه التوزيعات متشابهة جدًا بالنسبة لمجموعات البيانات الثلاث. بالنسبة لأي رقم أو أبجدية، فإن توزيع المواقع المحددة بعد الحلقة الأخيرة يشبه توزيع شدة البكسل لفئتها من مجموعة البيانات. ومع ذلك، فإن تسلسل المواقع المختارة هو عشوائي بطبيعته. يشير توزيع الفصل إلى وجود ارتباك بين الفئات ذات الهياكل المتشابهة في الحلقات القليلة الأولى عندما يختار المشاركون فئات متعددة. يتم تقليل هذا الارتباك مع المزيد من العينات. هناك علاقة إيجابية كبيرة بين درجة الارتباك (# فئات مختارة / إجمالي # فئات) ومدة أخذ العينات (انظر الشكل 4). إذا كان عدد الفصول المختارة مرتفعًا (منخفضًا)، تكون المدة بين الحلقات المتتالية عالية (منخفضة). CC لتسلسل المواقع التي اختارها المشارك للفصل الدراسي ليست مهمة (الجدول 1). وهذا متوقع بسبب التباين بين المواضيع في أخذ عينات من الصور الثابتة. متوسط عدد العينات المطلوبة من قبل المشارك للتنبؤ بدقة بفصل ما منخفض جدًا. في المتوسط، يستغرق الأمر 4.2 و4.7 و4.9 عينة تقابل 36 و44.1 و48.1 ثانية لتصنيف الصور ذات الأحرف الكبيرة والصغيرة من MNIST وEMNIST بدقة على التوالي. شاهد المشاركون في المتوسط 11.3% و13.4% و13.7% فقط من مساحة الصورة لتصنيف صورة أبجدية رقمية وأحرف كبيرة وصغيرة بدقة (انظر الشكل S2 في المادة التكميلية). تسلط هذه النتائج الضوء على كفاءة نظام التفكير البصري البشري، وإن كان بدقة أقل من بيانات تتبع العين ولكن مع ضوضاء وتقلب أقل. قد تكون هذه النتائج التجريبية مفيدة لتصميم نماذج قائمة على الاهتمام لتطبيقات العالم الحقيقي. التنبؤ بالسلوك. في هذا القسم، يتم تقييم أداء نموذجنا الأساسي من حيث مدى دقته في التنبؤ بموقع كل مشارك واختيار الفصل الدراسي. نظرًا لأن نتائجنا التجريبية باستخدام وظيفتي تسجيل النقاط البارزة، تباعد KL والاختلاف، متشابهة تمامًا، يتم الإبلاغ عن النتائج باستخدام الفرق فقط، ما لم ينص على خلاف ذلك. التنبؤ الطبقة. تم توضيح التنبؤ بالفئة وطرق تقييم دقتها في قسم "التنبؤ بالفئة". يتم حساب دقة التنبؤ بالفئة، الموضحة في الشكل 5، على جميع الفئات لجميع العينات. متوسط دقة التنبؤ بالفئة على جميع العينات ومجموعات البيانات هو 74.4% (std. dev. 26.5). يوضح الشكلان 5 أ و ب أن مجموعة الفئات التي اختارها المشاركون ونموذجنا الأساسي (المعادل 2) غير دقيقة تمامًا في الحلقات الأولية وتتحسن مع زيادة العينات. يوضح الشكل 5 ج أنه خلال الحلقات الأولية، تكون هاتان المجموعتان، ct و ct، مختلفتين تمامًا؛ ويزداد التشابه مع زيادة العينات. وينطبق الشيء نفسه على اختيارات الفئة الجديدة (المرجع الشكل 5F). ومع ذلك، فإن حالات رفض الفصل متشابهة في الحلقات الأولية؛ يزداد التشابه بشكل أكبر مع المزيد من العينات (المرجع الشكل 5 هـ). منذ J(st, ˆst)=|(ct ∩ ˆct) − ct−1| |(ct ∪ ˆct) − ct−1| و J(rt, ˆrt)=|ct−1 − (ct ∪ ˆct)| |ct−1 − (ct ∩ ˆct)|، يمكن استنتاجه من الشكل 5e، f أنه في الحلقات الأولية، يكون التقاطع بين ct−1 وct ∪ ˆct صغيرًا، مما يشير إلى أن المشاركين في البداية ونموذجنا الأساسي إجراء العديد من التغييرات في اختيار الفصل بين الحلقات المتتالية. لذلك، في البداية، تكون عملية اختيار الفصل عشوائية للغاية. في حين أن هناك بعض الاختلافات بين توقعات المشاركين ونموذجنا خلال الحلقات الأولية، فإن السلوكيات تصبح متشابهة بشكل متزايد مع المزيد من العينات. خلال الحلقات القليلة الأولى (عادة من 4 إلى 7) يتم الكشف عن أجزاء بارزة للغاية من المحفز. وهذا يساعد على اختيار الفئة الصحيحة فقط في العينات اللاحقة، مما يزيد من دقة التنبؤ. نظرًا لوجود العديد من الفئات التي تتطابق قوالبها المتوسطة مع الأجزاء المرصودة من التحفيز خلال الحلقات القليلة الأولى، فإن عملية اختيار الفصل تكون أكثر عشوائية بشكل ملحوظ، مما يؤدي إلى انخفاض دقة التصنيف من المشاركين وكذلك نموذجنا.

الشكل 3. توزيع مواقع أخذ العينات على جميع المشاركين لكل فئة الأرقام/الأبجدية وكل حلقة أخذ العينات. يتوافق كل صف مع فئة، وكل عمود يتوافق مع حلقة أخذ العينات التي تزيد من اليسار إلى اليمين.
التنبؤ بالموقع. تبلغ دقة التنبؤ بالموقع لنموذجنا الأساسي (المعادل 3)، بمتوسط جميع العينات ومجموعات البيانات، 67.7% (المعيار القياسي dev. 14.1) (المرجع. الشكل 5 د). إن اتجاه دقة التنبؤ هذه يتعارض مع اتجاه دقة التنبؤ بالفئة. ومع ذلك، يبقى التفسير هو نفسه. تكون دقة التنبؤ بالموقع عالية أثناء أخذ العينات الأولية لأنه خلال هذه الحلقات، يتم تحديد المواقع البارزة للغاية، مع ترك المواقع الأقل بروزًا ليتم تحديدها في الحلقات اللاحقة. نظرًا لوجود العديد من المواقع ذات الأهمية المنخفضة، فإن عملية اختيارها تكون عشوائية للغاية وبالتالي يصعب التنبؤ بها، مما يؤدي إلى انخفاض دقة التنبؤ مع زيادة في العينات. يعد الاتجاه التنازلي فريدًا لكل مجموعة بيانات (المرجع الشكل 5 د) حيث يختلف عدد الفئات وعدد المواقع البارزة جدًا المفيدة للتمييز بين مجموعات البيانات. كلما انخفض عدد الفئات والمواقع التمييزية البارزة للغاية، كلما كان الانخفاض في دقة التنبؤ بالموقع أسرع مع زيادة العينات.

الشكل 4. (يسار) مؤامرة Errorbar من الفارق الزمني (ثواني) بين عينات متتالية بلغ متوسطها على جميع الفئات. وبالتالي، فإن القيمة المعروضة في حلقة أخذ العينات t هي الوقت المنقضي بين نقرات المشارك في الصورة عند t − 1 وt. (يمين) متوسط مؤامرة الارتباك Errorbar على جميع الفئات في كل حلقة. تشير أشرطة الخطأ إلى الأمراض المنقولة جنسيا. ديف.

الشكل 5. تقييم نموذج خط الأساس لدينا (المرجع قسم "خط الأساس للتنبؤ بالسلوك"). (أ) دقة التصنيف (حسب) للمشاركين و (ب) دقة نموذج خط الأساس الخاص بنا مع التسميات الفعلية كحقيقة أساسية. (ج) تشابه التصنيف (J(ct, ˆct))، (د) دقة التنبؤ بالموقع، (هـ) دقة رفض الفصل و (و) دقة اختيار الفصل لنموذج خط الأساس الخاص بنا مع بيانات المشاركين كحقيقة أساسية. راجع قسم "التنبؤ بالسلوك" للحصول على التفاصيل.

الجدول 1. متوسط معامل ارتباط بيرسون (corr.) لتسلسلات fxation لنفس الفئة. بالنسبة لأي تثبيت، تكون المسافة إقليدية ويتم قياس الاتجاه بالزاوية القطبية بالنسبة إلى مركز المحفزات باعتباره الأصل. الأمراض المنقولة جنسيا. ديف. يتم تضمينها بين قوسين.
تقييم ذاكرة الوصول العشوائي.
بالنسبة لكل فئة وأخذ عينات، تتم مقارنة خرائط التثبيت من ذاكرة الوصول العشوائي (استخدمنا تطبيق ذاكرة الوصول العشوائي من github.com/hehefan/Recurrent-Attention-Model) والبيانات المجمعة لنفس المحفزات المقدمة في MTurk. لإجراء مقارنة عادلة مع المشاركين، في ذاكرة الوصول العشوائي (RAM)، قمنا بتثبيت طول التسلسل عند T=12، وهو موقع أخذ العينات الأول في مركز الصورة، ومراقبة الإدخال لرقعة 5 × 5 مع الموقع المحدد كمركز لها، و تعديل وظيفة المكافأة بواسطة Eq. (1). المكافأة التراكمية، Rt في المعادلة. (4،) يتم استبدالها بالنتيجة التراكمية t τ=1 Pτ التي تم الحصول عليها من المعادلة. (1). نظرًا لأنه يمكن للمشارك تحديد فئات متعددة في أي حلقة، بالنسبة لنموذج ذاكرة الوصول العشوائي (RAM)، بدلاً من التنبؤ بفئة واحدة بناءً على أعلى احتمال، فإننا نعتبر متوسط الاحتمال على جميع الفئات بمثابة عتبة ونتنبأ بمجموعة الفئات مع احتمالات أكبر من عتبة. يتم استخدام هذا المقطع لحساب النتيجة باستخدام المعادلة. (1). في ظل هذه الظروف، تتطلب ذاكرة الوصول العشوائي (RAM) 3.7 و8.5 و7.6 عينة للتعرف على أرقام MNIST والأحرف الكبيرة والأحرف الهجائية EMNIST، والتي تتوافق مع 8.9% و21.0% و18.7% من مساحة الصورة على التوالي. وبالتالي، بالمقارنة مع المشاركين لدينا (المرجع قسم "تحليل البيانات")، فإن ذاكرة الوصول العشوائي أقل كفاءة. انظر الجدول 2. تظهر نتائج مقارنة خرائط التثبيت من ذاكرة الوصول العشوائي والبيانات المجمعة في الجدول 3. KL أعلى بسبب حساسيته للقيم الصفرية. وهذا يعني أن العديد من المواقع يتم أخذ عينات منها بواسطة المشاركين ولكن ليس بواسطة ذاكرة الوصول العشوائي (RAM). يمكن استخدام هذه التجارب كخط أساس لتقييم المواقع التي تم أخذ عينات منها بواسطة نموذج الاهتمام.

فوائد cistanche - تحسين الذاكرة
مناقشات
يحتوي نموذج MCAT، كما هو مستخدم في هذه الورقة، على بعض نقاط الاختلاف عن تلك التي تعتمد في المقام الأول على حركات العين والنظرات لدراسة آليات التعرف على الأشياء. في الأخير، الأجزاء البارزة من المشهد تجذب الانتباه أولاً، تليها حركات العين الساكادية التي توجه نظر العين إلى المواقع البارزة. يتم التحكم في النظرة من خلال إشارات من أسفل إلى أعلى ومن أعلى إلى أسفل والتي تشكل، جنبًا إلى جنب مع المعلومات البارزة، خرائط ذات أولوية توجه حركات العين للتعرف على الأشياء. نظرًا لأن المشاركين في الدراسة الحالية نظروا إلى الصور الثابتة في ظل ظروف المشاهدة الحرة ومع وجود متسع من الوقت في متناول اليد (ست دقائق لعينات T=12)، فمن المحتمل أنهم انخرطوا في سلسلة من حركات العين الساكادية أو التفكير البصري للاستكشاف. الصورة قبل النقر على AOI. كان من الممكن التقاط حركات العين هذه في emAT (باستخدام جهاز تعقب العين) ولكن ليس في mcAT. ومع ذلك، فإن حركات العين هذه تتأثر بشرود العقل. في حين أن MCAT يتأثر أيضًا بشرود العقل، فقد ينخفض التأثير عندما يستجيب المشاركون بعد التفكير البصري. وبما أن حركات العين استجابةً لمحفز ما تتأثر بالمهمة المطروحة، فمن المرجح أن أنماط حركة عين المشاركين تأثرت بالمهمة المخصصة المكونة من ثلاث خطوات في كل عينة (المرجع قسم "المهمة المرئية"). إذا تم استخدام جهاز تعقب العين، فإن حركات عيون المشاركين لاستكشاف العينة كانت ستختلط مع حركات العين للنقر على الفئات التي اختاروها، مما قد يؤدي إلى تعقيد تفسير الاستكشاف البصري للعينة. يعد النقر فوق الفصل (الفصول) خطوة ضرورية لأنه يكشف، ولو بشكل استبطاني، عن الفصل (الفصول) المتوقعة في ذهن المشارك. من المحتمل أن يكون التحديق مباشرة قبل وبعد تحديد AOI - وربما بمساعدة حركات العين المثبتة أيضًا31-- قد ساهم بشكل كبير في التعرف على الأرقام/الأبجدية. في الواقع، نحن نفترض أن المشاركين اختاروا مناطق تشخيصية من الصورة للتمييز بين الفئات، ومن المحتمل أن تحتوي تلك المناطق على مزيج من المعلومات التشخيصية من أسفل إلى أعلى (على سبيل المثال، التباين البصري) ومن أعلى إلى أسفل (قالب رقمي/أبجدي). وهذا يتفق مع ما توصلنا إليه من أن المشاركين يميزون بسرعة (ضمن 5 عينات في المتوسط) بين فئات التحفيز ظاهريًا عن طريق اختيار تصحيحات تشخيصية.

الجدول 2. مقارنة الكفاءة بين المشاركين لدينا ونموذج ذاكرة الوصول العشوائي من حيث متوسط عدد العينات المطلوبة للتعرف على الأرقام/الأبجدية. يتم تضمين النسبة المئوية لمساحة الصورة التي تمت ملاحظتها بين قوسين.

الجدول 3. متوسط تقييم خرائط التثبيت من ذاكرة الوصول العشوائي للمحفزات المقدمة في تجارب MTurk على جميع الفئات والعينات. الأمراض المنقولة جنسيا. ديف. يتم تضمينها بين قوسين.
الاستنتاجات
لقد قدمنا مجموعة بيانات mcAT للتعرف على الأرقام والحروف الهجائية المكتوبة بخط اليد عبر أخذ العينات التسلسلية. تم جمع البيانات من 382 مشاركًا تم تقديمهم مع صور مختارة من مجموعات البيانات القياسية (MNIST، EMNIST). في المتوسط، يتم تسجيل 169.1 استجابة لكل فئة أرقام/أبجدية. يتم تحليل البيانات بدقة للكشف عن كفاءة التعرف البصري البشري. لاحظ المشاركون 12.8% فقط من الصورة للتعرف عليها. لقد اقترحنا نموذجًا أساسيًا للتنبؤ بالموقع والفصل (الفصول) الذي سيختاره المشارك في أخذ العينات التالي. لقد أظهرنا كيف يمكن استخدام ظروفنا وبياناتنا التجريبية لتقييم نموذج التعزيز القائم على الاهتمام مقارنة بالأداء البشري. مجموعة بيانات MCAT هذه، مع فوائد متعددة مقارنة ببيانات تتبع العين، تسد فجوة حاسمة في أبحاث النماذج القائمة على الاهتمام في الذكاء الاصطناعي والتعلم الآلي ومجالات أخرى.
مراجع
1. رانزاتو، ماجستير في تعلم أين تبحث. أرخايف:1405.5488، (2014).
2. با، جيه، سالاخوتدينوف، آر آر، غروس، آر بي، وفراي، بي جيه نماذج تعلم الانتباه المتكرر أثناء الاستيقاظ والنوم. في خطط التنفيذ الوطنية، 2593-2601 (2015).
3. منيه، V. وآخرون. نماذج متكررة من الاهتمام البصري. في خطط التنفيذ الوطنية، 2204-2212 (2014).
4. Ba, J., Mnih, V., & Kavukcuoglu, K. التعرف على الكائنات المتعددة مع الاهتمام البصري. أرخايف:1412.7755 (2014).
5. Dutta, JK & Banerjee, B. الاختلاف في دقة التصنيف مع عدد اللمحات. في IJCNN، 447-453 (IEEE، 2017).
6. Larochelle، H. & Hinton، GE تعلم كيفية الجمع بين لمحات نقرية مع آلة بولتزمان من الدرجة الثالثة. في خطط التنفيذ الوطنية، 1243-1251 (2010).
7. السيد، ج.، كورنبليث، إس. & لو، كيو في ساكادير: تحسين دقة نماذج الانتباه الشديد للرؤية. في خطط التنفيذ الوطنية، 702-714 (2019).
8. فان بيرز، RJ تي مصادر التباين في حركات العين saccadic. جيه نيوروسي. 27(33)، 8757-8770 (2007).
9. Itti, L. & Baldi, P. المفاجأة البايزية تجذب انتباه الإنسان. فيس. الدقة. 49(10)، 1295-1306 (2009).
10. إجنر، س وآخرون. الانتباه واكتساب المعلومات: مقارنة النقر بالماوس مع تتبع انتباه حركة العين. جي آي موف. الدقة. 11(6)، (2018).
11. Peterson, MS, Kramer, AF & Irwin, DE التحولات السرية في الانتباه تسبق حركات العين اللاإرادية. إدراك. نفسية. 66(3)، 398-405 (2004).
12. جيانغ، م وآخرون. السيليكون: البروز في السياق. في CVPR، 1072-1080 (2015).
13. كيم، NW وآخرون. BubbleView: واجهة للتعهيد الجماعي لخرائط أهمية الصور وتتبع الاهتمام البصري. ايه سي ام ترانس. حساب. همم. يتفاعل. 24(5)، 1–40 (2017).
14. Sermanet, P., Frome, A. & Real, E. الاهتمام بالتصنيف الدقيق. أرخايف:1412.7054 (2014).
15. Egner, S., Itti, L. & Scheier, C. مقارنة نماذج الانتباه مع أنواع مختلفة من بيانات السلوك. تحقيق. العيون. فيس. الخيال العلمي. 41(4)، س39 (2000).
16. نافالباكام، ف. وآخرون. قياس ونمذجة سلوك العين والفأرة في وجود تخطيطات الصفحات غير الخطية. في بروك. كثافة العمليات. أسيوط. WWW، 953-964 (2013).
17. Matzen, LE, Stites, MC & Gastelum, ZN دراسة البحث البصري بدون جهاز تعقب العين: تقييم النقرة الاصطناعية. كوجن. الدقة. برينس. ضمني. 6(1)، 1–22 (2021).
18. تافي، أب وآخرون. التعرف الضوئي على الحروف كخدمة: تقييم تجريبي لـ Google Docs OCR، وTesseract، وABBYY FineReader، وTransym. في كثافة العمليات. أعراض. فيس. حساب.، 735-746 (سبرينغر، 2016).
19. Memon, J., Sami, M., Khan, RA & Uddin, M. التعرف البصري على الحروف المكتوبة بخط اليد (OCR): مراجعة منهجية شاملة للأدبيات (SLR). IEEE Access 8، 142642–142668 (2020).
20. Chaudhuri، A.، Mandaviya، K.، Badelia، P. & Ghosh، SK أنظمة التعرف البصري على الأحرف. في أنظمة التعرف البصري على الأحرف للغات المختلفة باستخدام حوسبة Sof، 9–41 (سبرينغر، 2017).
21. ليكون، Y. وآخرون. تطبيق التعلم القائم على التدرج للتعرف على الوثائق. بروك. IEEE 86(11)، 2278-2324 (1998).
22. Cohen, G., Afshar, S., Tapson, J. & van Schaik, A. EMNIST: امتداد MNIST إلى الرسائل المكتوبة بخط اليد. أرخايف:1702.05373، (2017).
23. Gregor، K.، Danihelka، I.، Graves، A.، Rezende، D. & Wierstra، D. DRAW: شبكة عصبية متكررة لتوليد الصور. في ICML، 1462-1471 (2015).
24. فريستون، ك. مبدأ الطاقة الحرة: دليل تقريبي للدماغ؟. الاتجاهات كوجن. الخيال العلمي. 13(7)، 293-301 (2009).
25. Mirza, MB, Adams, RA, Friston, K. & Parr, T. تقديم نموذج بايزي للانتباه الانتقائي يعتمد على الاستدلال النشط. الخيال العلمي. النواب 9(1)، 1-22 (2019).
26. Bylinskii, Z., Judd, T., Oliva, A., Torralba, A. & Durand, F. ماذا تخبرنا مقاييس التقييم المختلفة عن نماذج الأهمية؟ IEEE ترانس. نمط الشرج. ماخ. إنتل. 41(3)، 740-757 (2018).
27. Itti، L. & Koch، C. النمذجة الحسابية للانتباه البصري. نات. القس نيوروسكي. 2(3)، 194-203 (2001).
28. لامي، VAF الوظائف البصرية التي تولد الرؤية الواعية. أمام. نفسي، 11، (2020).
29. da Silva, MRD & Postma, M. العقول المتجولة والفئران المتجولة: تتبع فأرة الكمبيوتر كوسيلة للكشف عن شرود العقل. حساب. همم. بيهاف. 112، 106453 (2020).
30. Schütz، AC، Braun، DI & Gegenfurtner، KR حركات العين والإدراك: مراجعة انتقائية. جي فيس. 11(5)، 9-9 (2011).
31. Intoy، J. & Rucci، M. حركات العين المضبوطة بدقة تعزز حدة البصر. نات. مشترك. 11(1)، 1–11 (2020).






