رویکرد سیستماتیک به طبقه بندی باینری تصاویر در جریان های ویدیویی با استفاده از ویندوزهای زمان تغییر

آخرین مطالب

امکانات وب

رویکرد سیستماتیک به طبقه بندی باینری تصاویر در جریان های ویدیویی با استفاده از ویندوزهای زمان تغییر

الگوریتم های متعدد طبقه بندی فریم در توالی های ویدیویی آنها را فقط به عنوان تصاویر جداگانه در نظر می گیرند. پس از اشاره به خواص ضبط های زندگی واقعی و طبقه بندی فریم های آنها ، ما یک روش پنجره تغییر زمان تغییر جدید را برای بهبود طبقه بندی باینری پیشنهاد می کنیم. این در دو مرحله ادامه می یابد: اول ، الگوریتم های طبقه بندی شناخته شده به طور جداگانه برای هر فریم برای به دست آوردن طبقه بندی های مقدماتی استفاده می شود. ثانیا ، نتایج مرحله قبل در توالی نسبتاً کوتاه از تصاویر متوالی (پنجره زمان تغییر) مورد تجزیه و تحلیل قرار می گیرد. با در نظر گرفتن ماهیت مداوم فیلم های زندگی واقعی مورد تجزیه و تحلیل ، توالی طبقه بندی باینری اولیه را می توان اصلاح کرد. در نتیجه ، کیفیت طبقه بندی بهبود می یابد. علاوه بر این ، ما یک رویکرد سیستماتیک ارائه می دهیم که در آن تمام پارامترهای الگوریتم پیشنهادی (مانند طول پنجره یا توزیع وزن رأی در پنجره) در نظر گرفته شده و مقادیر بهینه آنها تعیین می شود. آزمایش در نمونه های نماینده مزایای رویکرد پیشنهادی را تأیید می کند.

روی نسخه خطی کار می کنید؟

از رایج ترین اشتباهات خودداری کنید و نسخه خطی خود را برای ویراستاران ژورنال آماده کنید.

معرفی

با شناسایی تعدادی از الگوریتم ها که تصاویر مجرد از یک جریان ویدیویی را طبقه بندی می کنند ، می توانیم بپرسیم که آیا این رویکرد از نظر توالی ویدیویی در زندگی واقعی بهینه است یا خیر. در حالی که تشخیص یک ویژگی استاتیک فقط به یک تصویر (قاب) نیاز دارد ، در فیلم های زندگی واقعی نیز ممکن است دنباله ای طولانی تر از فریم ها را در نظر بگیریم که همان ویژگی باید قابل مشاهده باشد.

الگوریتم هایی مانند موارد ارائه شده در [1 ، 2] تمایل دارند طبقه بندی تصویر را در فیلم ها به طور جداگانه برای هر فریم در نظر بگیرند. در ادامه ، ما این نوع الگوریتم ها را به عنوان یک فریم تجزیه و تحلیل (OFA) بیان خواهیم کرد. مزیت اصلی آنها هزینه نسبتاً کم تهیه مجموعه داده های تصویر و در دسترس بودن روش های تثبیت شده است. ویژگی هایی که آنها تشخیص می دهند ایستا هستند. به عنوان مثال ، ضایعات در فیلم های آندوسکوپی یا افراد در ضبط های نظارتی می توانند در تصاویر مجرد شناخته شوند ، اما انتظار می رود دید آنها برای تعدادی از قاب های متوالی دوام داشته باشد.

تداوم ویدیوها به طور ضمنی مبنای روش های ردیابی شی است که به طور تطبیقی نمایش های اشیاء ردیابی شده را تنظیم می کنند [3، 4] یا از شباهت بین فریم آنها بهره برداری می کنند [5]. حتی اگر یک آیتم مشاهده شده می تواند به طور چشمگیری در طول زمان تغییر کند، همه تغییرات تدریجی و قابل ردیابی فرض می شوند. روش های دیگر، که چهره ها [6] یا حرکات دست [7] را دنبال می کنند، در ابتدا یک مسیر را در فریم های خاص تشخیص می دهند و در مرحله دوم آن را صاف می کنند.

آثار مختلفی را می توان مشخص کرد که جنبه های خاصی از در نظر گرفتن روابط بین طبقه بندی فریم های ویدیویی متوالی را مورد بررسی قرار می دهند. چنین رویکردی را می توان در خود روش طبقه بندی چارچوب یا با معرفی یک مرحله پس از پردازش اضافی برای توضیح ساختار زمانی اعمال کرد. گزینه دوم در این مقاله بیشتر مورد بررسی قرار خواهد گرفت.

برای مثال، نویسندگان [8] پیشنهاد کردند که یک الگوریتم تقسیم بندی صحنه از الگوریتم های طبقه بندی ساده تر ایجاد شود. نتایج از نظر ساختار زمانی با یک مدل مارکوف پنهان منطقی می شوند.

چنین رویکردی همچنین به نفع نویسندگان [9] بوده است که نرخ تشخیص اشیاء متن را زمانی که زمینه زمانی در ویدیو در نظر گرفته شده است، بهبود بخشیده اند. همچنین [10] کیفیت تشخیص را پس از معرفی مرحله پس از پردازش پنجره جابجایی افزایش داد. در [11] نقاط پرت در مرحله نهایی تصحیح می شوند و خطاهای جزئی را در طول دنباله های 100 فریم تغییر می دهند. استفاده از پنجره های زمانی کوچک برای تجزیه و تحلیل لیست های رتبه بندی شده شناسایی ها با موفقیت شناسایی عابران پیاده را در [12] بهبود بخشید. آثار معرفی شده در این پاراگراف تنها مواردی هستند که به صراحت تأثیر بهبود طبقه بندی ها را با استفاده از ویژگی های زمانی ویدیو - که جوهر روش ما است، ارزیابی می کنند. این اطلاعات در بخش ارائه شده است. 5 برای مقایسه با رویکرد پیشنهادی.

پنجره های کشویی برای خلاصه سازی ویدئو در [13] استفاده شده است. برای ایجاد محله های مرتبط برای قاب های کلیدی، اندازه پنجره با توجه به برش های ویدیو تطبیق داده شد. نویسندگان [14] یک مرحله پس از پردازش را با یک پنجره تغییر اندازه 5 ترکیب می کنند، که در آن اکثریت رای طبقه بندی نهایی یک فریم را تعیین می کند (بخشی از دستگاه گوارش که نشان دهنده آن است). فقط به طور خلاصه اشاره می شود که این مرحله دقت روش آنها را بهبود می بخشد.

در مجموعه ای از طبقه بندی ها ، می توان از مسافت های مجرد اشتباهات احتمالی در نظر گرفت. یک مرور کلی از روشهای تشخیص دورتر توسط گوپتا و همکاران ارائه شده است.[15 ، 16]. آنها یک مقدار واحد را با پیش بینی آن بر اساس محله آن (یک طرفه یا دو طرفه) مقایسه می کنند. پیش بینی می تواند میانه [17] ، میانگین [18] یا یک عملکرد پیچیده تر [18] از مقادیر موجود در محله باشد. این روشها به طور مستقیم با رویکرد پنجره در حال تغییر ارائه شده در [14 ، 19 ، 20] ، با محله معادل ویندوز در حال تغییر مطابقت دارد.

در جمع بندی ، چندین اثر را می توان به آن اشاره کرد که در آن محله قاب های طبقه بندی شده مورد توجه قرار گرفته است. آنها ثابت کرده اند که نتایج طبقه بندی را بهبود می بخشند ، اما تاکنون هیچ تلاشی برای پیشنهاد و تجزیه و تحلیل یک رویکرد کلی وجود ندارد.

مشارکتهای معرفی شده توسط این کار دو برابر است. اول ، ما نیاز و انگیزه برای معرفی روشی را که به شما امکان می دهد اطلاعات زمانی را در نظر بگیریم ، که از روشهای OFA مورد غفلت قرار می گیرد ، شناسایی کرده ایم. این انگیزه ها در استفاده ضمنی از روابط زمانی در چندین مقاله مشخص می شوند. آنها همچنین با یک تحلیل نظری تأیید می شوند. ثانیا ، روش FSA ارائه شده است ، که امکان بهبود الگوریتم های موجود را فراهم می کند. این شامل اطلاعات زمانی در یک مرحله پس از پردازش است ، که امکان استفاده از تمام مزایای روشهای OFA را فراهم می کند. ارزیابی تجربی کارآیی روش را تأیید می کند و اجازه می دهد تا درک کند که چگونه پارامترهای کنترل کننده آن بر آن تأثیر می گذارد.

در این مقاله طبقه بندی های باینری در درجه اول در نظر گرفته شده است ، اما می توان تعمیم برای طبقه بندی های چند طبقه ، به عنوان مثال ، برای بیان صورت تصور کرد [21]. این در نتیجه گیری این مقاله ذکر شده است.

در بخش بعدی ، ما با یک بحث مختصر در مورد چگونگی استمرار فیلم های زندگی واقعی به ما امکان می دهیم که فرضیاتی را در مورد ساختار توالی طبقه بندی آنها انجام دهیم. به عنوان نتیجه گیری ، در فرقه. 3 ما یک طرح جدید برای بهبود الگوریتم ها ارائه می دهیم که خصوصیات باینری را به قاب های ویدیویی اختصاص می دهد. روش جدید طبق یک طرح ارائه شده در فرقه ارزیابی می شود. 4 در دو مجموعه داده واقعی و همچنین یک جریان مصنوعی. نتایج ارزیابی در بخش ارائه شده است. 5- سرانجام ، نتیجه گیری این مقاله در فرقه خلاصه می شود. 6

تداوم و تغییر

زمینه اصلی که ما فیلم های طبقه بندی شده را در نظر می گیریم سرعت تغییر آنها و ویژگی های مداوم آنها در این رو (به عنوان تصاویر گسسته از فرآیندهای مداوم) است.

ما فرایند طبقه بندی را به عنوان دنباله ای از تحولات بین فضاهای مختلف تعریف می کنیم. کل مفهوم در شکل 1 ارائه شده است ، جایی که هر زیرگروه با گامی در تبدیل نمای ضبط شده به دنباله ای از طبقه بندی های متوالی مطابقت دارد:

واقعیت مشاهده شده از نظر محور زمانی و تغییراتی که در آن رخ می دهد ، ماهیت مداوم دارد.

ضبط ویدیو واقعیت را تا حد امکان از نزدیک نشان می دهد. با این وجود ، فریم ها فقط در فواصل منظم ( ( textit ) مقدار) ثبت می شوند و تصاویر به دست آمده نمایش های کاملاً دقیقی نیستند (محور مشاهده - مقادیر پیچیده شده با اختلاف Q).

هنگامی که هر فریم به طور جداگانه طبقه بندی می شود ، الگوریتم طبقه بندی مستعد خطاها است. اگرچه طبقه بندی به طور کلی دقیق است ، اما اشتباهات منفرد متداول است.

با دانستن اینکه طبقه بندی های باینری اکتسابی نمایانگر یک خاصیت مداوم هستند (در اینجا: مسیر اصلی که در وسط یا زیر خط قرار دارد) ، طبقه بندی های اولیه قابل بهبود است.

تحولات مربوطه که نمای مشاهده شده را به یک سری طبقه بندی تبدیل می کنند عبارتند از:

(الف) ( RightArrow ) (ب): ضبط جریان ویدیو ،

(ب) ( Rightarrow ) (c): طبقه بندی جریان فیلم به عنوان فریم های جداگانه - رویکرد یک فریم (OFA) ،

(ج) ( Rightarrow ) (d): بهبود طبقه بندی های اولیه - رویکرد تجزیه و تحلیل توالی فریم پیشنهادی (FSA).

چهار مرحله از دید واقعی زندگی تا طبقه بندی نهایی یک واقعیت مشاهده شده ، B واقعیت گسسته و دیجیتالی ، که در آن: مرحله-زمان بین دو فریم ، عدم صحت q al ، یعنی پیکسل ها و رنگ های گسسته ، نتیجه C OFA ، نتیجه D FSA

فاصله بصری بین دو تصویر باید به روشی خاص دامنه تعریف شود. ما بیشتر آن را به عنوان یک تابع متریک (D ( CDOT ، CDOT) ) تعریف خواهیم کرد ، و مشتق دقیقی از مقدار آن را کنار می گذاریم. یک مشاهده واقعی در یک نقطه از زمان t به عنوان (V_T ) مشخص می شود. اولین قاب فیلم از (t_0 = 0 ) شروع می شود ، زمان فریم شماره m ( (m in mathbb ))) بنابراین (t_m = m cdot textit ) است.

We observe the underlying continuous process (the real-life view) in discrete, evenly spaced moments (as video frames) and expect the amount of change to have an upper bound which allows for preserving the majority of the view from frame to frame. This kind of continuity is defined as Lipschitz continuity with the constant (L>0) :

این تعریف در شکل 1a نشان داده شده است. در اختلاف زمانی ( delta _t = | t-u | ) ، عملکرد می تواند بیش از ( pm l cdot delta _t ) تغییر کند. برای نقطه مثال در (t = 3. 5 ) ، ثابت L محدودیت هایی را که در آن می تواند متفاوت باشد تعیین می کند.

ما L را به عنوان حداکثر سرعت تغییر برای نوع ویدیوی مورد تجزیه و تحلیل تفسیر می کنیم. با فرض اینکه دنباله گسسته (فریم ها و طبقه بندی آنها) نمایی از یک عملکرد مداوم (یعنی دیدگاه واقعی و حالت) است که خاصیت Lipschitz را برآورده می کند ، محدودیت های مناسب در تغییر با گذشت زمان هنوز نگه داشته می شود.

برای نشان دادن این موضوع ، ابتدا عملکردی را که نشان دهنده تبدیل وضعیت زندگی واقعی به یک فیلم گسسته است ، تعریف کنیم. ما آن را با عملکرد (v ( cdot) ) مدل می کنیم که برآورده می شود:

Q ثابت بیان عدم دقت تحول را بیان می کند و نشان دهنده کیفیت ضبط است. مقدار Q برای کیفیت بالاتر تصویر پایین تر است.

بنابراین ، برای دو مشاهده داده شده (v_s ) و (v_t ):

$$x08egin d(V(v_t),V(v_s))le & <> d(V(v_t),v_t) + d(v_t,v_s) onumber \&+,d(v_s,V(v_s)) le d(v_t, v_s) + Q. end$$

این نتیجه با این واقعیت مطابقت دارد که تفاوت بین دو فریم نشان دهنده تفاوت بین نمایی است که آنها نشان می دهند و عدم دقت محدود ضبط (به عنوان مثال ، رنگ های گرد ، پیکسل).

قضیه 1

یک دیدگاه گسسته با عدم دقت محدود از عملکرد مداوم Lipschitz ، خاصیت Lipschitz را حفظ می کند.

اثبات

بگذارید تعریف کنیم: (v_t ) - در مورد زمان t ،

(v ( cdot) )-پیش بینی نمای زندگی واقعی به یک تصویر/قاب ،

(p_m=V(v_>) ) تصویر discrete در لحظه گسسته (m in mathbb ).

ما نشان خواهیم داد که خاصیت Lipschitz هنوز برای (P_M ) حفظ شده است. بگذارید شاخص های فریم مختلف دلخواه m و (m ') ( ( delta _m = | m-m' | ge 1 )) بگیریم. استفاده از معادلات1 و 3 ، ما دریافت می کنیم:

The proof shows that (cdot> = Lcdot>+ q ) حد تغییر بین قاب های متوالی را بیان می کند. بنابراین ، سرعت سریعتر تغییر را می توان با مقادیر پایین ( textit ) و q جبران کرد - که فقط با توسعه فنی فعلی (بالاترین نرخ فریم و کیفیت تصویر) محدود است. در حال حاضر ، (q تقریبا 0 ) ، از آنجا که چشم انسان اغلب فیلم ها را به عنوان رنگ واقعی درک می کند و نمی تواند پیکسل ها را تشخیص دهد.

در ادامه ، ما در مورد قاب های ویدیویی از نظر ارزشهای حقیقت زمین (GT) آنها ، یعنی ارزش واقعی خاصیت طبقه بندی شده بحث خواهیم کرد. ما حقیقت زمین قاب M را به عنوان (g_m ) و طبقه بندی آن به عنوان (o_m ) بیان خواهیم کرد ( (g_m ، o_m in \)). از تداوم ویدیوی مورد تجزیه و تحلیل ، می فهمیم که هر دو فریم نزدیکتر در دنباله ویدیویی هستند ، این احتمال بیشتر است که کلاس های آنها در GT برابر باشد.

در این مرحله ، توجه به ارتباط بین پیوستگی لیپسیتز و منشأ زندگی واقعی فیلم های مورد بررسی مهم است. مشاهده شده اشیاء در زندگی واقعی در یک فیلم معمولی 25fps بیش از چندین فریم قابل مشاهده است. یک دور مثبت مثبت نشان دهنده یک خطا است نه یک شی (به عنوان مثال ، شخص) که به مدت 0. 04 ثانیه ظاهر می شود.

ما محله یک قاب را به عنوان یک پنجره زمانی با اندازه w (عجیب و غریب ، بنابراین (w = 2k+1 ) برای (k in mathbb ) در نظر خواهیم گرفت). ما اندازه آن را تنظیم می کنیم تا بسیار کوچکتر از طول ( mathcal ) صحنه فعلی (توالی طبقه بندی های متوالی مثبت یا منفی در GT) باشد. ( Mathcal ) یک متغیر تصادفی با توزیع ناشناخته است. با توجه به تداوم فیلم ، فرض می کنیم که مقدار متوسط آن به طور قابل توجهی بزرگتر از 0 است. ما حداکثر اندازه پنجره را انتخاب می کنیم (W_<max>) این تضمین می کند که اکثریت قریب به اتفاق پنجره ها به طور کامل در یک صحنه واحد قرار دارند:

برای دو مقدار داده شده (c_1 ، c_2 in \) ، ما مکاتبات طبقه بندی را به این ترتیب تعریف می کنیم:

این مقادیر را می توان برای یک الگوریتم OFA به عنوان آماری مربوط به عملکرد آن در داده های GT تخمین زد.

احتمال داشتن تعداد مشخصی از موارد موجود در پنجره ای از عرض (W = 2K+1 ) از این مشاهده ناشی می شود که برای هر دو نسخه ممکن از GT زیرین تعداد موارد دارای توزیع دوتایی است:

$$x08egin extstyle&Pleft( sum _^O_i = s ight) onumber \ extstyle&quad = sum _>P Left ( sum _^o_i = s | g_m = c راست) p (g_m = c) nonumber \ & quad textStyle = sum محدودیت _> left( s\ wend> ight) R_^s cdot R_^ cdot P(G_m=c). end$$

در ادامه ، ما اعتماد به نفس تصمیمی را که توسط اکثریت آرا در پنجره زمانی نشان داده شده است ، تعیین خواهیم کرد. با توجه به اینکه پنجره حاوی طبقه بندی مثبت S (با استفاده از قضیه Bayes) است ، می تواند به عنوان احتمال اصلی GT برابر با 0 یا 1 تعریف شود:

$$x08egin extstyle&Pleft( G_m = c mid sum _^O_i = s ight) onumber \ extstyle&quad = frac. end$$

محاسبات مثال برای Eqs. 7 و 8 ( (W = 7 ) ، (r_ = r_ = 0. 85 )): توزیع ویندوز با تعداد مشخصی از 1 ثانیه ، اعتماد به نفس اصلاحات صحیح FSA (خط سیاه) در مقایسه با اعتماد به نفس OFA(0. 85)

انتظار می رود الگوریتم های OFA با روش FSA پیشنهادی از دقت نسبتاً بالایی برخوردار باشند ، زیرا خروجی آنها تنها پایه برای هر استدلال دیگری است. نمونه هایی از استفاده از معادلات. 7 و 8 در شکل 2 ارائه شده است. مقادیر عددی نشانگر قوی برای تکیه به نتیجه اکثریت هنگام تصمیم گیری در مورد اختصاص طبقه بندی مرکز پنجره است. اعتماد به نفس چنین تصمیمی حداقل در سطح طبقه بندی های AA است.

در بخش بعدی ، ما یک روش جدید را بر اساس مشاهدات انجام شده در بالا پیشنهاد خواهیم کرد. روش پیشنهادی یک نسخه انعطاف پذیر و گسترده تر از اکثریت رأی که تاکنون در نظر گرفته شده است ، با دو پارامتر کنترل کننده اضافی در نظر گرفته شده است.

الگوریتم FSA

رویکرد پیشنهادی نتایج یک طبقه بندی اولیه OFA را اصلاح می کند. ما آن را تجزیه و تحلیل توالی فریم (FSA) نامگذاری کرده ایم. در شکل 3 ارائه شده است. متغیرهای کنترل کننده (W ، lambda ، A ) به عنوان پارامترهای الگوریتم مشخص شده اند:

W: عرض پنجره ، (5 le w le w_<max>) ;

( lambda ): پارامتر توزیع ، (0. 2<lambda le 1) ;

پاسخ: آستانه پذیرش ، (0. 5 le a<1) .

برای هر دامنه در نظر گرفته شده ، مقادیر بهینه آن پارامترها ممکن است متفاوت باشد. بنابراین ، آنها باید با استفاده از بهینه سازی گسسته ایجاد شوند. مقدار حداقل ( lambda = 0. 2 ) تنظیم شده است ، زیرا مقادیر پایین پارامتر با کاهش اندازه پنجره مطابقت دارد.

توزیع اهمیت (d_ lambda ) معرفی شده است تا نشان دهنده کاهش ارتباط فریم ها دورتر از مرکز پنجره باشد. این یک رابطه خطی است ، که توسط پارامتر ( lambda ) تنظیم شده است:

نتیجه رأی وزنی برای فریم M برابر است با:

(M شاخص قاب مرکزی در یک پنجره در حال تغییر است ، بنابراین: ()). اگر نتیجه آرا از آستانه پذیرش A فراتر رود ، نتیجه آراء قابل توجه تلقی می شود و مقدار مشخص شده آن به عنوان طبقه بندی قاب (احتمالاً تغییر مقدار اصلی) اختصاص می یابد. در غیر این صورت ، طبقه بندی اصلی OFA نگهداری می شود. شایان ذکر است که با گرفتن (a = 0. 5 ) و ( lambda = 1 ) ما نوع رای گیری اکثریت را که در بخش قبلی مورد بحث قرار گرفته است ، به دست می آوریم.

آزمایش

طبقه بندی تصاویر در فیلم ها یا از نظر دقت طبقه بندی فریم یا تطبیق مرز صحنه ارزیابی می شود (با یک تسکین خاص از نظر انتقال بین صحنه ها). برای ارزیابی ما ، ما از چهار اقدامات با کیفیت استفاده می کنیم و نرخ خطای مختلف را توصیف می کنیم:

( text ): نسبت منفی کاذب (مقدار محاسبه شده (r_ ))

( text ): نسبت مثبت کاذب (مقدار محاسبه شده (r_ ))

( text _b ): نسبت مرز (صحنه)

( text _b ): نسبت مرزی نامعتبر (صحنه) ،

در جایی که B تعداد فریم هایی است که با استفاده از آن می توان مکان مرز یک صحنه را با موقعیت مربوطه در GT متفاوت کرد. اگر یک مسابقه در آن فاصله یافت شود ، یک تشخیص صحیح در نظر گرفته می شود. ما مقادیر ( text _b ) و ( text _b ) را به شرح زیر تعریف می کنیم:

نمونه ای از ارزیابی تطبیق صحنه در شکل 4 ارائه شده است. نرخ خطای اکتسابی ( hbox _2 = frac ) و ( hbox _2 = frac ) است.

ارزش B اختلاف قابل قبولی را در مکان های مرز صحنه بیان می کند. بنابراین ، این دامنه خاص در نظر گرفته می شود. در نتیجه ، چهار مقدار عددی وجود دارد که بین اعدام های آزمون متفاوت است:

ب: تحمل مرز صحنه ،

w ، ( lambda ) ، الف: پارامترهای کنترل کننده الگوریتم FSA ارائه شده در شکل 3.

متغیر دیگر روش آزمایش داده های آزمایش است. ما پنج مجموعه ضبط را در نظر گرفته ایم:

جریان مصنوعی با اشیاء متحرک: کمی (AM1) یا بسیار (AM2) تحریف شده ،

PORTAL CHOKEPOINT [22] اول (CP1) و دوم (CP2) ،

تشخیص چراغ راهنمایی [23] (TLR).

جریان مصنوعی یک دنباله ویدیویی تولید شده است که حاوی نقاشی یک شخص و اشیاء متحرک است که با هم همپوشانی دارند. برای ارزیابی تأثیر کیفیت فیلم بر نتایج OFA و FSA ، با مجموعه ای از تحریفات از پیش تعریف شده (تاری ، سر و صدا ، مصنوعات تصادفی) تولید می شود. ChokePoint و TLR مجموعه داده های حاشیه نویسی باز هستند.

نمونه تحمل مرز صحنه برای (b = 2 )

ویژگی های هر یک از مجموعه داده ها متفاوت است. جریان مصنوعی حاوی حرکت منظم تعداد محدودی از اشیاء و صحنه های نسبتاً طولانی است. ضبط های چوکی حاوی چندین صحنه کوتاه است که اغلب با افرادی که از دید دوربین به سرعت یکی پس از دیگری عبور می کنند. ضبط TLR حاوی صحنه های بسیار طولانی است. علاوه بر این ، وضوح این فیلم کوچکترین است.

از سه الگوریتم OFA به عنوان جعبه های سیاه استفاده شده است ، و برای طرح های FSA ما ارائه شده است:

برای جریان های مصنوعی - OpenCv [24] تشخیص شبح (با آبشار Haar) ،

برای مجموعه داده های چوکی - تشخیص چهره OpenCV (با آبشار Haar) ،

برای تشخیص چراغ راهنمایی - اجرای ما از الگوریتم ارائه شده در [23].

مجموعه داده TLR حاوی انواع مختلفی از حاشیه نویسی (چراغ سبز/زرد/قرمز یا مبهم) است. ما روی تشخیص چراغ های سبز تمرکز کرده ایم و صحنه های مبهم را کنار گذاشته ایم و یک طبقه بندی کننده باینری OFA را به دست می آوریم.

تعداد پارامترها به ما امکان می دهد یک جستجوی متراکم از فضای مقادیر پارامتر انجام دهیم. ما بهترین مقادیر پارامتر را برای هر اندازه گیری کیفیت به طور جداگانه و همچنین مربع میانگین ریشه آنها در نظر می گیریم.

نکته اصلی مورد علاقه روش آزمایش ، بهبود صحت معرفی شده توسط طرح FSA است ، هنگامی که با الگوریتم اساسی مقایسه می شود. اول ، با توجه به ساختار نتایج ، می خواهیم روابط بین پارامترها را پیدا کنیم و دستورالعمل هایی را برای آزمایش نهایی ارائه دهیم. ما با انجام یک تجزیه و تحلیل ساده اکتشافی از نتایج به دست آمده در مجموعه داده های آزمایش شروع می کنیم. این مقدمه ای برای ارزیابی الگوریتم در داده های تأیید است.

طرح آزمایش نهایی در شکل 5 ارائه شده است. برای تمرکز بر پیشرفت الگوریتم ما به الگوریتم های در نظر گرفته شده از الگوریتم های در نظر گرفته شده ، نتایج FSA داده شده به عنوان نسبت هر نوع خطا در خروجی FSA در مقایسه با خروجی OFA ارائه شده است.< SPAN> نکته اصلی مورد علاقه روش آزمایش ، بهبود صحت معرفی شده توسط طرح FSA است ، هنگامی که با الگوریتم زیربنایی مقایسه می شود. اول ، با توجه به ساختار نتایج ، می خواهیم روابط بین پارامترها را پیدا کنیم و دستورالعمل هایی را برای آزمایش نهایی ارائه دهیم. ما با انجام یک تجزیه و تحلیل ساده اکتشافی از نتایج به دست آمده در مجموعه داده های آزمایش شروع می کنیم. این مقدمه ای برای ارزیابی الگوریتم در داده های تأیید است.

استراتژی برای تجارت گزینه های...

ما را در سایت استراتژی برای تجارت گزینه های دنبال می کنید

برچسب : نویسنده : فریبا کامران بازدید : 37 تاريخ : دوشنبه 22 خرداد 1402 ساعت: 20:38

رویکرد سیستماتیک به طبقه بندی باینری تصاویر در جریان های ویدیویی با استفاده از ویندوزهای زمان تغییر

آخرین مطالب

امکانات وب