یک مطالعه اکتشافی در مورد پیچیدگی و پیش بینی یادگیری ماشین داده های بازار سهام

  • 2021-07-12

گروه مهندسی اطلاعات و نرم افزار ، انستیتوی مهندسی سیستم های اطلاعاتی ، دانشکده انفورماتیک ، TU Wien ، FavoritEnstrasse 9-11/194 ، 1040 وین ، اتریش ؛ta. ca. [email protected] samoht

مجوز MDPI ، بازل ، سوئیس. این مقاله یک مقاله دسترسی آزاد است که تحت شرایط و ضوابط مجوز Creative Commons Attribution (CC توسط) توزیع شده است (https://creativeecommons. org/licenses/by/4. 0/).

داده های مرتبط

چکیده

این مقاله نشان می دهد که آیا و چگونه پیش بینی و پیچیدگی داده های بازار سهام در طول نیم قرن گذشته تغییر کرده و چه تاثیری در عرضه پول M1 دارد. ما از سه الگوریتم یادگیری ماشین مختلف استفاده می کنیم ، یعنی یک رگرسیون خطی نزولی شیب تصادفی ، رگرسیون لاسو و رگرسیون درخت XGBoost ، برای آزمایش پیش بینی دو شاخص بازار سهام ، میانگین صنعتی داو جونز و NASDAQ (انجمن ملی اوراق بهادارفروشندگان نقل قول های خودکار) کامپوزیت. علاوه بر این ، تمام داده های مورد مطالعه در زمینه انواع اقدامات پیچیدگی سیگنال مورد بحث قرار گرفته است. نتایج این تجزیه و تحلیل پیچیدگی سپس با نتایج یادگیری ماشین در ارتباط است تا روند و همبستگی بین پیش بینی و پیچیدگی را کشف کند. نتایج ما نشان دهنده کاهش پیش بینی و افزایش پیچیدگی برای سالهای اخیر است. ما همبستگی بین آنتروپی تقریبی ، آنتروپی نمونه و پیش بینی الگوریتم های یادگیری ماشین استفاده شده در داده های مورد مطالعه می یابیم. این پیوند بین پیش بینی الگوریتم های یادگیری ماشین و اقدامات آنتروپی ذکر شده قبلاً نشان داده نشده است. باید هنگام تجزیه و تحلیل و پیش بینی داده های سری زمانی پیچیده ، به عنوان مثال ، داده های بازار سهام ، به عنوان مثال ، شناسایی مناطق افزایش پیش بینی در نظر گرفته شود.

واژه‌های کلیدی: هورست اکسپرس ، داده های بازار سهام ، پیش بینی سری زمانی ، یادگیری ماشین ، تجزیه و تحلیل سری زمانی ، تجزیه و تحلیل R/S ، اطلاعات فیشر ، آنتروپی شانون ، ابعاد فراکتال ، تجزیه و تحلیل رگرسیون ، پیش بینی ، پیچیدگی

1. مقدمه

موضوع فرضیه بازار کارآمد [1] ، یعنی اگر بازار سهام قابل پیش بینی باشد یا خیر ، هنوز هم یک موضوع مرتبط است. اگرچه به نظر می رسد توافق نامه ای وجود دارد که داده های بازار سهام دشوار است ، اما فرضیه کارآمد بازار هنوز مورد بحث قرار می گیرد و می توان استدلال هایی را برای آن و علیه آن پیدا کرد.

در این تحقیق ، ما بر جنبه پیاده روی تصادفی فرضیه بازار کارآمد تمرکز می کنیم ، که از آن به شکل ضعیف فرضیه بازار کارآمد یاد می شود [2]. نظریه پیاده روی تصادفی می گوید که تکامل آینده قیمت ها را نمی توان پیش بینی کرد ، یعنی قیمت ها حافظه ندارند. یکی از مشهورترین نویسندگان قرن بیستم در مورد فرضیه بازار کارآمد ، یوجین فاما است که شواهدی برای شخصیت پیاده روی تصادفی بازارهای سهام بر اساس مطالعات تجربی پیدا کرد [3]. با این حال ، در دهه 1990 ، بسیاری از محققان با تأکید بر نحوه رفتار سرمایه گذاران و پیش بینی مربوط به بازار سهام ، مانند 4] با فرضیه پیاده روی تصادفی مغایرت داشتند. درست همانطور که این نام ، یک پیاده روی غیر تصادفی در وال استریت نشان می دهد ، این فرضیه با سلف معروف خود یک پیاده روی تصادفی در وال استریت [5] ، یک راهنمای سرمایه گذاری متناقض است.

در گذشته ، تلاش های بسیاری برای نشان دادن پیش بینی و کارآیی بازار سهام با استفاده از حافظه ذاتی یا پیچیدگی ذاتی داده ها وجود داشت ، همانطور که در [6] ، جایی که نماینده Hurst [7] ، برای این کار استفاده شده است. در اینجا ما فرض می کنیم که پیچیدگی بازار سهام ، که به هر اندازه گیری برای غیرخطی بودن ، ترکیب سیگنال یا سر و صدا اشاره دارد ، برای پیش بینی و کارآیی آن بسیار مهم است و بنابراین باید در نظر گرفته شود.

علاوه بر این ، همانطور که در [8] بحث شد ، عرضه پول موجود ، به عنوان مثال ، M1 ، بر قیمت بازار سهام تأثیر می گذارد و بالعکس. تأثیر عرضه پول در داده های بازار سهام یا ارزهای رمزنگاری شده و تورم مربوطه مشهود است (رجوع کنید به https://inflationchart. com یا https://fred. stlouisfed. org در 17 ژانویه 2022). بنابراین ما همچنین در مورد تأثیر عرضه پول بر داده های بورس سهام مورد مطالعه بحث خواهیم کرد.

برای تحقیقات ما ، ما این موضوع از داده های بازار سهام را به عنوان یک پیاده روی تصادفی بررسی می کنیم. بنابراین ، ما می خواهیم تعیین کنیم که آیا روندهایی در پیش بینی و پیچیدگی برای داده های بازار سهام وجود دارد ، در صورت ارتباط ، و چه تأثیر تورم ، یعنی تعدیل عرضه پول موجود ، در داده های بورس و پیش بینی آن بیشتر است.، اگر شواهدی وجود داشته باشد که داده های بورس مورد مورد مطالعه نزدیک به یک پیاده روی تصادفی ، یعنی یک حرکت کسری قهوه ای ، برای سالهای بعد نسبت به سالهای اولیه نزدیک است. بنابراین ، ما از آمار ، هوش مصنوعی و ابزارهای تجزیه و تحلیل پیچیدگی استفاده می کنیم تا نشان دهیم که آیا و چگونه پیش بینی و پیچیدگی داده های بازار سهام در طول نیم قرن گذشته تغییر کرده است و چگونه عرضه پول M1 بر پیش بینی و پیچیدگی تأثیر می گذارد.

در بخش 2 ، ما در مورد ایده ها و رویکردهای مشابه از گذشته بحث می کنیم. توضیحات عمیق از رویکرد ما ، مجموعه داده ها و تکنیک های به کار رفته در بخش 3 آورده شده است. ما یافته های خود را در بخش 4 نشان می دهیم و بحث می کنیم. ما مطالعه خود را در بخش 5 نتیجه می گیریم. ما برخی از نتایج خود را در پیوست جمع آوری کردیمA و پیوست B برای تمرکز متن اصلی.

2. کار مرتبط

رویکرد ما ترکیبی از الگوریتم های یادگیری ماشین و اقدامات پیچیدگی/اطلاعات سیگنال است. بنابراین ، ما رویکردهای گذشته را ارزیابی می کنیم که این رشته ها برای تجزیه و تحلیل بازارهای مالی یا داده های مرتبط با آن ادغام شده اند. در بیشتر موارد ، از پیچیدگی سری زمانی مورد مطالعه برای بهبود رویکردهای یادگیری ماشین یا به دست آوردن بینش عمیق تر در مورد پویایی داده های سری زمانی استفاده می شود.

در [9] ، یک تکنیک جدید برای محاسبه ابعاد فراکتال یک سری زمانی ارائه شده است. علاوه بر این ، این تکنیک با شبکه های عصبی و منطق فازی ترکیب شده است تا پیش بینی شود ، به عنوان مثال ، نرخ ارز دلار/پزو.

کار [10] قیمت سهام Nikkei را به مدت 1500 روز تجزیه و تحلیل می کند. تجزیه و تحلیل فراکتال انجام می شود ، و مربوط به Hurst Exponent و بعد فراکتال محاسبه می شود. بعد فراکتال و نماینده Hurst نشان دهنده یک رفتار مداوم است و بنابراین ، سری زمانی می تواند از نظر تئوری پیش بینی شود. علاوه بر این ، قویترین همبستگی برای مدت سه روز یافت شد ، بنابراین گره های ورودی رویکرد یادگیری ماشین به سه روز تنظیم شده و به عنوان مثال ، به عنوان مثال ، پنج روز ، در حالی که رویکرد با سه روز از سایر موارد بهتر است.

در [11] ، نویسندگان اظهار داشتند که سری زمانی با یک نماینده Hurst بزرگتر می تواند در صورت پیش بینی با استفاده از شبکه های عصبی با انتشار بازگشت نسبت به سری های زمانی با یک نماینده Hurst نزدیک به 0. 5 پیش بینی شود. بنابراین ، نماینده Hurst برای 1024 دوره معاملات روز از شاخص Dow-Jones از 2 ژانویه 1930 تا 14 مه 2004 محاسبه می شود. پس از آن ، این فواصل پیش بینی می شود ، و نتایج نشان می دهد که یک سری زمانی با یک نمایشگر HURST بالاتر می تواند پیش بینی کندبا دقت از کسانی که دارای نمایشگر هورست پایین تر هستند.

کار [12] تجزیه و تحلیل و پیش بینی قیمت های بسته شدن بورس با استفاده از یک مدل شبکه عصبی مصنوعی پیشرفته پیشرفته. علاوه بر این ، از تجزیه و تحلیل R/S برای محاسبه نماینده Hurst برای مقیاس های مختلف و داده های سری زمانی مورد مطالعه استفاده می شود. این مورد برای شناسایی رژیم حداکثر پایداری ، یعنی جایی که نماینده هورست حداکثر است استفاده می شود. سپس از این رژیم ها برای خیاط پنجره های ورودی مدل شبکه عصبی استفاده شده استفاده شد. مدل های مبتنی بر Hurst از مدل های معمولی بهتر عمل نکردند. با این حال ، هنگام استفاده از الگوی ارائه شده از Hurst برای استراتژی های معاملاتی ، افراد بهبود یافته Hurst از نمونه های معمولی بهتر عمل می کردند.

در [13] ، با استفاده از Exponent Hurst ، می توان الگوهای پیاده روی تصادفی را در یک سری زمانی ، یعنی با یک نماینده Hurst 0. 5 ≈ شناسایی کرد. بنابراین مناطقی با 0. 5 H H با استفاده از شبکه های عصبی مصنوعی ، درختان تصمیم گیری و مدل های همسایه K-Nearest مشخص و پیش بینی شدند. بنابراین به دقت حداکثر 65 ٪ رسید.

در [14] ، سه داده سری زمانی مختلف با استفاده از یک فرآیند NARX (فرآیند غیرخطی اتورگرایی با ورودی برون زا) شبکه عصبی مکرر پویا پیش بینی می شود. دو مورد داده های سری زمانی هرج و مرج است و سوم شرط (میانگین قیمت بسته روزانه برای نه نماینده ، بیشتر شرکت های دارای نقدینگی در بازار سهام بخارست). تجزیه و تحلیل فراکتال با استفاده از نمایشگر Hurst اعمال می شود و نشان می دهد که هر سه غیر تصادفی هستند ، یعنی دارای یک نماینده Hurst از H ≠ 0. 5 هستند. پیش بینی ها برای دو سری زمانی هرج و مرج بسیار مناسب است ، اما سری زمان BET ، با وجود یک نمایش عالی Hurst ، بسیار پایین تر از سایر موارد است ، زیرا این تنها داده های سری زمانی واقعی در بین این سه است.

In addition, in [15], the authors perform fractal analysis to exclude random behavior and to indicate predictability of the data under study. The stock indices understudy shows a persistent behavior, i.e., a Hurst exponent H >0. 5پس از آن ، روشهای یادگیری ماشین (سیستم استنباط عصبی-فازی سازگار ، سیستم استنتاج عصبی فازی در حال تحول پویا ، شبکه عصبی اردن ، رگرسیون بردار پشتیبانی و جنگل تصادفی) برای پیش بینی توسعه بازار آینده استفاده می شود. نتایج نشان می دهد که این سری های زمانی تا حدی می توانند به طور مؤثر پیش بینی شوند.

در [16] ، نویسندگان قصد داشتند وجود رابطه بین حافظه بلند مدت در داده های سری زمانی و پیش بینی پیش بینی شبکه عصبی از داده های سری زمانی مالی را نشان دهند. دارایی های مالی برزیل در BM & FBOVESPA ، به ویژه سهام شرکت های دولتی و صندوق های سرمایه گذاری در املاک و مستغلات ، با استفاده از تجزیه و تحلیل R/S و نماینده مربوط به Hurst معامله شد. این مطالعه نشان می دهد که می توان هنگام در نظر گرفتن سری های زمانی با یک نماینده Hurst بالاتر و غفلت از یک سری زمانی ضد تحمل با یک نماینده H Hurst ، بازده بالاتری به دست آورد.< 0.5 .

در [17]، هشت شاخص مختلف بازار سهام با استفاده از توان هرست، آنتروپی شانون و آنتروپی Rényi تجزیه و تحلیل شده است. علاوه بر این، ویژگی های پیچیدگی وابسته به زمان با استفاده از این سه معیار پیچیدگی به هر مجموعه داده اضافه شد. علاوه بر این، از درون یابی خطی برای تقویت داده های مطالعه و تولید مجموعه داده های بزرگتر استفاده شد. سپس آن مجموعه داده‌ها با استفاده از رگرسیون چند لایه (MLR)، رگرسیون بردار پشتیبان (SVR) و مدل‌های انتشار به عقب پیش‌بینی شدند. بهترین نتایج در هنگام استفاده از انتشار به سمت عقب، شامل هر سه ویژگی پیچیدگی، یعنی توان هرست، آنتروپی Rényi و آنتروپی شانون به دست آمد.

با توجه به رویکردهای ذکر شده، ما می خواهیم از طیف گسترده تری از معیارهای پیچیدگی برای تجزیه و تحلیل داده های سری زمانی مالی استفاده کنیم: در [18]، آنتروپی تقریبی، بعد فراکتال و حافظه بلند مدت برای آزمایش کارایی بازار و [19] نیز استفاده شد. آنتروپی تقریبی برای بررسی بی نظمی در داده های مالی.

در [20]، نویسندگان یک نمای کلی از رویکردهای ترکیبی یادگیری ماشین و اندازه گیری های پیچیدگی سیگنال برای تجزیه و تحلیل سری های زمانی ارائه می دهند، بسیاری از مراجع و روش های مورد بحث در مقاله حاضر در یک زمینه گسترده تر با تاکید بر نحوه ترکیب این دو ارائه شده اند. زمینه های تحقیق

در نهایت، [21،22] شواهدی برای کاربرد XGBoost در داده های بازار سهام ارائه می دهد. در حالی که، با استفاده از رگرسیون کمند برای تحلیل بازار سهام، [23] از رگرسیون خطی برای تجزیه و تحلیل داده های بازار سهام استفاده می کند.

هنگام پیش بینی نرخ ارز بازار سهام، روش های مختلفی برای انتخاب وجود دارد. برای اهداف خود، ما یک رگرسیون LASSO، یک الگوریتم مبتنی بر درخت XGBoost و یک روش رگرسیون خطی نزولی گرادیان تصادفی را انتخاب کردیم.

در [24]، یک رگرسیون LASSO برای پیش‌بینی داده‌های بازار سهام استفاده می‌شود و برای کاربرد ویژه، از روش‌های دیگر مانند رگرسیون خطی خطی یا یک مدل مصنوعی منظم بیزی بهتر عمل می‌کند. علاوه بر این، در [25،26]، رگرسیون کمند برای تحلیل و پیش‌بینی بازار سهام استفاده می‌شود.

در [27]، انواع طبقه بندی کننده های درختی برای پیش بینی قیمت های بازار سهام استفاده می شود. الگوریتم‌های مورد استفاده، مدل‌های درخت تصمیم‌گیری تصادفی جنگل و درخت‌های تصمیم تقویت‌شده با گرادیان، مانند XGBoost هستند. علاوه بر این، در [28]، XGBoost برای پیش بینی قیمت نفت استفاده می شود. علاوه بر این، [22] از یک الگوریتم XGBoost برای پیش بینی جهت داده های بازار سهام استفاده می کند.

کار [29] داده‌های بازار سهام را با استفاده از چندین الگوریتم مختلف تجزیه و تحلیل می‌کند، که شامل یک مدل رگرسیون خطی شیب نزولی تصادفی است. علاوه بر این، در [23]، از رویکرد رگرسیون خطی برای پیش‌بینی داده‌های بازار سهام استفاده می‌شود.

3. روش شناسی

ما روش زیر را برای آزمایش داده های بازار سهام برای پیش بینی پذیری آن ایجاد کردیم:

تقسیم داده ها به بازه های فرعی. در مورد ما، داده‌ها را به زیر مجموعه‌های سالانه تقسیم می‌کنیم، یعنی هر سال را جداگانه بررسی می‌کنیم.

ما پیچیدگی سیگنال هر مجموعه داده را اندازه‌گیری کردیم، یعنی هر سال، با استفاده از معیارهای پیچیدگی زیر: اطلاعات فیشر، آنتروپی شانون، آنتروپی تقریبی (ApEn)، آنتروپی نمونه (SampEn)، بعد فراکتال با استفاده از سه الگوریتم مختلف، توان هرستو خطای توان هرست.

Refactor زیر داده های مربوط به مشکلات پیش بینی مختلف ، یعنی پیش بینی مقدار متوالی 1 مرحله قبل ، پیش بینی مقدار متوالی 2 مرحله قبلی و غیره تا 100 مرحله قبلی. بنابراین ، ما 100 مشکل پیش بینی در حافظه آنها از مقادیر قبلی ، یعنی 100 مشکل پیش بینی مختلف برای هر زیر فاصله ، متفاوت است.

در مرحله بعد ، ما داده های هر زیر فاصله را تغییر می دهیم و آن را به ترتیب با یک پارتیشن بندی نسبی 0. 8 تا 0. 2 به یک مجموعه داده قطار و آزمایش می کنیم.

ما سپس تجزیه و تحلیل رگرسیون را با استفاده از یک الگوریتم یادگیری ماشین بر روی هر مشکل پیش بینی برای هر زیر فاصله انجام دادیم و نمرات مجموعه داده های آموزش و آزمایش را جمع آوری کردیم.

ما این روش را ابتدا برای داده های معمولی انجام دادیم و دوم برای مجموعه داده هایی که با استفاده از عرضه پول M1 از بین رفته است.

3. 1مجموعه داده ها

ما از سه مجموعه داده برای تحقیقات خود استفاده کردیم: میانگین صنعتی داو جونز ، NASDAQ دوم و سوم داده های مربوط به عرضه M1 پول.

ما بازه زمانی خود را تا 31 دسامبر 2019 تنظیم کردیم زیرا ، پس از این تاریخ ، معیارهای مربوط به تهیه M1 تغییر کرده است ، یعنی قبل از ماه مه 2020 ، M1 شامل موارد زیر است:

ارز خارج از خزانه داری ایالات متحده ، بانکهای فدرال رزرو و طاق های موسسات سپرده گذاری.

سپرده های تقاضا در بانک های تجاری (به استثنای آن مبلغی که توسط موسسات سپرده گذاری ، دولت ایالات متحده و بانک های خارجی و موسسات رسمی نگهداری می شود) ، تعداد نقدی کمتری در روند جمع آوری و شناور فدرال رزرو.

سایر سپرده های قابل بررسی (OCD) ، متشکل از سفارش قابل مذاکره از برداشت (اکنون) و خدمات انتقال خودکار (ATS) ، حساب های موسسات سپرده گذاری ، پیش نویس حساب های مربوط به اتحادیه های اعتباری و سپرده های تقاضا را در موسسات رونق.

با شروع ماه مه 2020 ، امتیاز سوم به سایر سپرده های مایع ، متشکل از OCD و سپرده های پس انداز (از جمله حساب سپرده های بازار پول) تغییر یافت ، که منجر به افزایش غیر منطقی در عرضه پول M1 شد.

3. 1. 1. عرضه پول M1

از آنجا که ما فقط برای هر ماه برای داده های عرضه پول M1 فقط یک ارزش داریم ، اما چندین مورد برای مجموعه داده های دیگر ، ما از یک مقدار M1 ماهانه در دسترس استفاده کردیم تا برای هر روز مربوط به داده های داو جونز و NASDAQ تنظیم شود. ماه

3. 1. 2. میانگین صنعتی داو جونز

داو جونز یک شاخص بورس سهام است که عملکرد 30 شرکت بزرگ را که در بورس سهام در ایالات متحده ذکر شده است ، اندازه گیری می کند.

3. 1. 3. کامپوزیت NASDAQ

Composite NASDAQ یک شاخص بورس سهام است که تقریباً کلیه سهام ذکر شده در بورس اوراق بهادار NASDAQ را شامل می شود.

3. 2الگوریتم های یادگیری ماشین

ما از سه الگوریتم یادگیری ماشین مختلف استفاده کردیم تا در مورد همه مجموعه داده ها پیش بینی کنیم تا اطمینان حاصل شود که نتایج به یک رویکرد رگرسیون واحد بستگی ندارد. بنابراین ، ما XGBOOST ، رگرسیون لاسو و یک رگرسیون نزول شیب تصادفی خطی را برای تجزیه و تحلیل خود انتخاب کردیم. همانطور که می خواهیم این مقاله را متمرکز کنیم ، فقط به طور خلاصه به تکنیک های ارجاع شده اشاره می کنیم و برای خواننده علاقه مند منابع بیشتری ارائه می دهیم.

ما به دلایل مختلف الگوریتم های شاغل را انتخاب کردیم. اول ، الگوریتم های رگرسیون مبتنی بر درخت و اساسی برخی از رایج ترین الگوریتم ها برای انجام تجزیه و تحلیل رگرسیون هستند. علاوه بر این ، از آنجا که یک الگوریتم XGBoost مبتنی بر درخت از نظر یک رگرسیون خطی یا لاسو متفاوت است ، ما انتظار داریم با استفاده از الگوریتم های مورد بحث ، دو جنبه اصلی الگوریتم های یادگیری ماشین را ضبط کنیم. در مرحله بعد ، ما به دلیل ناسازگاری آنها در طراحی ، از شبکه های عصبی استفاده نمی کنیم. در حالی که الگوریتم های شاغل هنگام بهینه سازی طراحی آنها بسیار منسجم هستند ، یعنی دامنه پارامترها را در بخش 3. 2. 4 مشاهده کنید ، ما نمی توانیم به روشی برای انتخاب منسجم تعداد لایه ها و نورونهای مربوطه با توجه به تغییر سالانه فکر کنیمداده های سری زمانی و پیچیدگی های مختلف ، به عنوان گزینه های مختلف طراحی ممکن است نتایج کاملاً متفاوتی به همراه داشته باشد.

3. 2. 1. Bosting Gradient Extreme مبتنی بر درخت (XGBOOST)

اولین الگوریتم ارائه شده یک الگوریتم مبتنی بر درخت تقویت شیب شدید (XGBoost) است. در اصطلاحات یادگیری ماشین ، اصطلاح تقویت به ترکیب نتایج بسیاری از پیش بینی های ضعیف به یک قوی اشاره دارد. بنابراین انتخاب این طبقه بندی های ضعیف باید بهینه شود. علاوه بر این ، افزایش با اجازه بهینه سازی یک عملکرد از دست دادن متفاوت خودسرانه قابل تعمیم است.

XGBoost در [33] به عنوان بخشی از تقریب عملکرد حریص پیشنهاد شد. الگوریتم استاندارد امروزه توسط [34] تهیه شده است و یک روش گروهی مبتنی بر درخت است.

ما برای تحقیقات خود از یک XGBoost = 1. 2. 1 Python در ترکیب با Sklearn استفاده کردیم.

3. 2. 2. رگرسیون لاسو

کمترین عملگر کوچک و انتخابی (Lasso) یک روش رگرسیون است. بخشی از لاسو انتخاب متغیر و تنظیم است. هر دو ، انتخاب متغیر و تنظیم مقررات به منظور افزایش تجزیه و تحلیل رگرسیون برای دستیابی به پیش بینی های دقیق تر عمل می کنند. بنابراین کوچک شدن به کوچک شدن مقادیر داده به سمت یک نقطه مرکزی به عنوان میانگین اشاره دارد و همچنین به عنوان تنظیم L1 گفته می شود.

منابع اصلی رگرسیون لاسو [35،36] است. نکته جالب دیگر در مورد این روش [37] است زیرا با رگرسیون لاسو در زمینه تعمیم یافته مدلهای رگرسیون مجازات رفتار می کند.

ما برای تجزیه و تحلیل خود از یک اجرای موجود از Sklearn استفاده کردیم.

3. 2. 3. رگرسیون خطی نزول شیب تصادفی

ما همچنین از یک مدل رگرسیون خطی نزول شیب تصادفی اساسی از Sklearn ، یعنی SgdRegressor استفاده کردیم.

ما این الگوریتم را انتخاب کردیم زیرا یکی از اساسی ترین الگوریتم های یادگیری ماشین است ، بنابراین می توانیم نتایج پیچیده تری را ، به عنوان مثال ، از یک مدل XGBoost ، با نتایج یک مدل رگرسیون خطی نزول شیب تصادفی مقایسه کنیم. یک مدل رگرسیون خطی نزول شیب تصادفی می تواند برای انواع مشکلات از جمله داده های بازار سهام اعمال شود [29،38].

ما برای تجزیه و تحلیل خود از یک اجرای موجود از Sklearn استفاده کردیم.

3. 2. 4. بهينه سازي

ما بیشتر با استفاده از تصادفی searchCV از Sklearn ، هر الگوریتم را بهینه کردیم. ما از پارامترها و دامنه های زیر برای بهینه سازی استفاده کردیم:

"n_estimators": stats. randint (50 ، 1200)

"colsample_bytree": [1 ، 0. 9 ، 0. 8 ، 0. 5 ، 0. 4]

"max_depth": stats. randint (1 ، 12)

"Lambda": Stats. Umform (0. 0 ، 2. 0)

"آلفا": Stats. Umform (0. 0 ، 2. 0)

"min_child_weight": stats.randint(1, 3)>

"آلفا": [1 ، 0. 1 ، 0. 01 ، 0. 001 ، 0. 0001 ، 0. 00001 ، 0]

"ETA0": [0. 1 ، 0. 01 ، 0. 001 ، 0. 0001]

"آلفا": [1 ، 0. 5 ، 0. 25 ، 0. 1 ، 0. 01 ، 0. 001]

3. 3معیارهای خطا

ما برای اعتبارسنجی نتایج خود از دو اقدام خطای مختلف و یک روش اعتبار سنجی متقاطع استفاده کردیم:

3. 3. 1. ریشه میانگین مربعات خطا (RMSE)

برای یک سیگنال [ x 1 , x 2 , … , x n ] و یک پیش بینی مربوطه [ x ^ 1 , x ^ 2 , … , x ^ n ]، ریشه میانگین مربعات خطا (RMSE) به صورت زیر تعریف می شود:

3. 3. 2. ضریب تعیین (R 2-امتیاز)

به ما یک سیگنال [x 1 , x 2 , … , x n ] و یک پیش بینی مربوطه [ x ^ 1 , x ^ 2 , … , x ^ n ] داده می شود . میانگین سیگنال را به صورت زیر می یابیم:

سپس مجموع مجذورات را محاسبه می کنیم:

و مجموع مربع های باقیمانده:

بنابراین ضریب تعیین را به صورت زیر می یابیم:

در حالی که مقدار نزدیک به 1 یک امتیاز عالی است، مقدار نزدیک به صفر مقادیر پیش‌بینی نزدیک به میانگین سیگنال واقعی را نشان می‌دهد و مقدار زیر صفر پیش‌بینی بدتر از خط پایه میانگین است.

3. 3. 3. اعتبار سنجی متقابل

برای اعتبارسنجی نتایج و بهینه‌سازی الگوریتم‌های یادگیری ماشینی استفاده‌شده، ما از یک پیاده‌سازی موجود برای اعتبارسنجی متقاطع k-fold از sklearn با داده‌های پنج برابری و مخلوط‌شده استفاده کردیم. ما از یک روش اعتبارسنجی متقاطع اقتباس شده با سری زمانی برای این مطالعه استفاده نکردیم. هدف ما پیش‌بینی داده‌های سری زمانی نیست، بلکه بیانیه‌هایی در مورد قابلیت پیش‌بینی به‌طور کلی است. علاوه بر این، همانطور که ما داده‌ها را به صورت سالانه مطالعه می‌کردیم، اعتبارسنجی متقابل اقتباس‌شده با سری‌های زمانی باعث می‌شد که ماه‌های آخر هر سال را به عنوان داده‌های آموزشی در نظر نگیریم، زیرا روش‌های اعتبارسنجی متقابل سری‌های زمانی همیشه به ترتیب زمانی هستند.

3. 4. تحلیل پیچیدگی

ما چندین معیار پیچیدگی را در مورد چگونگی ارتباط آنها با نمرات تحلیل رگرسیون آزمایش کردیم.

3. 4. 1. بعد فراکتال

بعد فراکتال یک سری زمانی را می توان به عنوان معیاری از پیچیدگی سیگنال درک کرد. ایده اصلی این است که ابتدا سری‌های زمانی را به‌عنوان یک نمودار دو بعدی که روی شبکه‌ای با فواصل مساوی قرار دارد در نظر بگیریم و سپس تعداد جعبه‌های شبکه‌ای را که برای پوشش کل داده‌های سری زمانی لازم است بشماریم. بنابراین نسبتی از مساحت کل نمودار و مساحت اشغال شده توسط سیگنال زمان را بدست می آوریم. این فرآیند به عنوان جعبه شمارش نامیده می شود. بعد فراکتال می تواند یک مقدار غیر صحیح داشته باشد، به عنوان مثال، بعد فراکتال D یک سری زمانی خود وابسته می تواند مقادیر 1 داشته باشد.< D < 2 .

چندین الگوریتم برای محاسبه بعد فراکتال یک سری زمانی وجود دارد، و ما از سه مفهوم زیر برای تحقیق خود استفاده کردیم، یعنی الگوریتم هیگوچی [39]، الگوریتم پتروسیان [40] و الگوریتم کاتز [41].].

3. 4. 2. نما هرست، تحلیل R/S، هرست-خطا

توان هرست حافظه بلند مدت داده های سری زمانی را اندازه گیری می کند. در سال 1965 اختراع شد و با استفاده از آنالیز R/S محاسبه می شود [42]. ما فقط برای تحقیق خود از گزیده ای ضروری از نظریه استفاده می کنیم و برای بررسی عمیق موضوع به [42،43] مراجعه می کنیم.

تحلیل R/S (Rescaled range analysis) برای شناسایی همبستگی های بلندمدت در سری های زمانی استفاده می شود. یک پارامتر به دست می‌دهد، توان هرست "H".

برای یک سیگنال داده شده [x1, x 2, …, xn]، میانگین را در یک دوره τ (یک بازه فرعی سیگنال، به عنوان مثال، 1 ≤ τ ≤ n)، با k برابر 1 ≤ k ≤ n پیدا می کنیم. و عناصر i در این بازه به طوری که k ≤ i ≤ k + τ :

علاوه بر این، ما خروج انباشته δxi، τ، k را در دوره یک دوره i ∈ 1، 2، …، τ به صورت زیر پیدا می کنیم:

در مرحله بعد، محدوده R را پیدا می کنیم، که تفاوت بین مقادیر حداکثر و حداقل تمام x i در بازه k، k + τ به صورت زیر است:

انحراف استاندارد مربوطه برای هر زیر بازه:

برای محدوده نهایی و انحراف استاندارد، یافته‌های قبلی خود را بر روی همه موارد ممکن میانگین می‌گیریم (الگوریتم‌هایی که تجزیه و تحلیل R/S را انجام می‌دهند، زیرمجموعه‌ای از فواصل ممکن را پیدا می‌کنند و این روش را در تمام فواصل ممکن انجام می‌دهند.) k به‌صورت:

که در آن 1 ≤ k ≤ n و k ≤ i ≤ k + τ . سپس نما هرست H با استفاده از ویژگی های مقیاس بندی به صورت زیر تعریف می شود:

رفتار مجانبی برای یک فرآیند تصادفی مستقل با واریانس محدود به صورت زیر ارائه می شود:

بنابراین برای فرآیندهای تصادفی H = 1 2 است. برای داده های واقعی، H ≠ 1 2، زیرا اکثر فرآیندهای زندگی واقعی دارای همبستگی های طولانی مدت هستند.

برای تجزیه و تحلیل R/S، ما از بسته های پایتون https://pypi. org/project/nolds/، رفر.[44]، و https://github. com/Mottl/hurst، در 17 ژانویه 2022 مشاهده شد.

برای تجسم تحلیل R/S، نسبت را در مقیاس لگاریتمی در برابر فواصل، همچنین در مقیاس لگاریتمی رسم می کنیم. بنابراین توان هرست شیب تناسب خطی مربوطه است، به شکل 1 مراجعه کنید.

An external file that holds a picture, illustration, etc. Object name is entropy-24-00332-g001.jpg

نمودار لگاریتمی دوگانه برای برازش نما هرست برای پیاده روی تصادفی با احتمال 0. 5 و طول 500 گام. توان هرست محاسبه شده H = 0. 57 است و خطای هرست مربوطه RMSE Hurst = 5. 229 است. این نتیجه از نوسانات متفاوت، یعنی بزرگتر، برای بازه های زمانی بزرگتر نسبت به بازه های زمانی کوچکتر است.

سپس می‌توانیم با اندازه‌گیری فاصله نقاط داده واقعی تا Hurst-fit، یعنی برازش خطی مقیاس لگاریتمی دوگانه، یک پارامتر جدید مرتبط با تحلیل R/S پیدا کنیم. ما این فاصله، یعنی باقیمانده ها را با استفاده از ریشه میانگین مربعات خطا اندازه می گیریم. در طول این تحقیق از این خطای هرست برازش با عنوان خطای هرست یاد خواهیم کرد. اهمیت این خطای هرست توانایی آن در تمایز بین داده های سری زمانی تک فراکتالی یا چند فرکتالی است. بنابراین اگر سری دو زمانی با توان هرست یکسان به ما داده شود و بین خطاهای هرست آنها تفاوت پیدا کنیم، می توانیم بگوییم که سری زمانی با خطای هرست بزرگتر یک سری چند فرکتالی است، یعنی نوسانات متفاوت است. در مقیاس های مختلفاز طرف دیگر، اگر سری زمانی با خطای هرست صفر پیدا کنیم، می توانیم بگوییم که این یک سری زمانی کاملاً تک فراکتال است، به این معنی که نوسانات بسیار مشابهی را در همه مقیاس ها پیدا می کنیم. Hurst-fit و Hurst-Error مربوطه در شکل 1 نشان داده شده است (توجه داشته باشید که معمولاً انحرافات زیادی از تناسب برای یک حرکت براونی کسری دریافت نمی شود، اما ما این داده های آزمون را طوری تغییر دادیم که نمودار توضیحی و توضیحی باشد. نشان دهنده).

3. 4. 3. اطلاعات فیشر

اطلاعات فیشر مقدار اطلاعاتی است که از مجموعه ای از اندازه گیری ها استخراج می شود، یعنی کیفیت اندازه گیری ها [45]. می توان آن را به عنوان معیاری از نظم یا بی نظمی یک سیستم یا داده تفسیر کرد، بنابراین می توان از آن برای بررسی سیگنال های غیر ثابت و پیچیده استفاده کرد.

اطلاعات فیشر برای تحلیل سری های زمانی تک متغیره مناسب است که به عنوان سیگنال [x1, x 2, …, xn] داده می شود.

ابتدا بردارهای جاسازی را به صورت زیر می سازیم:

با تاخیر زمانی τ و بعد تعبیه شده d E. فضای جاسازی، به عنوان یک ماتریس، به صورت زیر است:

در مرحله بعد، ما یک تجزیه یک مقدار را انجام می دهیم، [46]، که مقادیر مفرد σi را با مقادیر تکی نرمال شده مربوطه به دست می دهیم:

سپس اطلاعات فیشر این است:

در اینجا از اجرای بسته پایتون https://neurokit. readthedocs. io/en/latest/ ، (دسترسی به 17 ژانویه 2022) [47] استفاده شد. این اجرای نیاز به دو پارامتر دارد ، ابتدا تأخیر زمانی ، که با استفاده از محاسبه متوسط اطلاعات متقابل از [48] و بعد تعبیه ، که با استفاده از یک الگوریتم همسایه کاذب تعیین شده است [49] تعیین شد. نتایج هر دو بعد تعبیه و تأخیر زمان در پیوست C نشان داده شده است.

3. 4. 4. آنتروپی تقریبی (APEN)

توسعه یافته توسط استیو م. پینکوس ، آنتروپی تقریبی در ابتدا برای تجزیه و تحلیل داده های پزشکی [19] با برنامه های کاربردی به سیستم های شبکه بیولوژیکی عمومی در کارهای بعدی استفاده شد [50].

ما از بسته Python https://github. com/raphaelvallat/antropy ، (دسترسی به 17 ژانویه 2022) برای محاسبه آنتروپی تقریبی یک مجموعه داده استفاده کردیم.

APEN تعداد غیر منفی را به یک سری زمانی اختصاص می دهد ، جایی که مقادیر بزرگتر به جای مقادیر کوچکتر ، تصادفی بیشتر را نشان می دهد. علاوه بر این ، APEN می تواند به عنوان یک پارامتر گروه همبستگی فرآیند ، یعنی مقادیر کوچکتر با همبستگی خودکار مثبت بیشتر مطابقت داشته باشد ، و مقادیر بزرگتر نشانگر استقلال بیشتر است.

با توجه به سیگنال [x 1 ، x 2 ،… ، x n] ، ابتدا دو پارامتر ورودی M و R را برطرف می کنیم ، جایی که M طول اجراهای مقایسه شده است ، یعنی بعد تعبیه ، و R یک پارامتر فیلتر لازم است. بعد تعبیه با استفاده از الگوریتم نزدیکترین همسایه کاذب [49] تعیین شد. نتایج مربوط به بعد تعبیه در ضمیمه C نشان داده شده است. ما زیر مجموعه ها را برای تشکیل توالی بردار x → i = x i ، x i + 1 ،… x i + m - 1 نشان می دهیم ، در حالی که i + m - 1 ≤ n. بردارهای x → من مقادیر متوالی x از سیگنال را نشان می دهند ، که به عنوان نقطه اول سیگنال خطاب می شود.

در مرحله بعد ، ما فاصله d x → i ، x → j را بین بردارهای x → i و x → j به عنوان حداکثر تفاوت در اجزای مقیاس پذیر مربوطه تعریف می کنیم.

سپس منظم و فرکانس الگوهای را در یک تحمل r اندازه گیری می کنیم:

که در آن log لگاریتم طبیعی است. آنتروپی تقریبی به این صورت یافت می شود:

APEN را می توان به عنوان احتمال الگوهای مشابه مشاهدات تعبیر کرد که توسط مشاهدات مشابه اضافی دنبال نشود ، یعنی یک سری زمانی که حاوی الگوهای منظم تکراری است ، دارای ارزش APEN پایین تر از یک سری زمانی نامنظم تر است. بنابراین APEN هر دو الگوهای غالب و فرعی را در داده ها ارزیابی می کند ، و منعکس کننده بی نظمی در همه مقیاس ها است.

3. 4. 5. آنتروپی نمونه (سامپن)

با توجه به یک سیگنال [x 1 ، x 2 ،… ، x n] ، ما دوباره یک بعد تعبیه M و یک مقدار فیلتر r را پیدا می کنیم. بعد تعبیه با استفاده از الگوریتم نزدیکترین همسایه کاذب ، [49] تعیین شد. نتایج مربوط به بعد تعبیه در ضمیمه C نشان داده شده است. ما زیر مجموعه ها را برای تشکیل توالی بردار x → i ، m = x i ، x i + 1 ،… x i + m - 1 نشان می دهیم ، در حالی که i + m ≤ n. Sampen M ، R ، N سپس مقدار منفی لگاریتم احتمال مشروط است که دو توالی مشابه از نقاط M در نقطه بعدی M + 1 مشابه باقی می مانند ، یعنی بعد تعبیه 1 افزایش می یابد ، بنابراین هر بردار را بیش از حد شمارش می کندتمام بردارهای دیگر به جز خود [51]. بنابراین سامپن قوام نسبی را حفظ می کند و همچنین بیشتر از طول سریال مستقل است.

اگرچه مشابه ، سامپن در مقایسه با APEN تفاوت های ظریف دارد. برای Sampen ، از سری زمانی به عنوان یک کل استفاده می شود ، بنابراین به یک بردار الگوی نیاز دارد تا یک مسابقه با طول M + 1 را پیدا کند. برای APEN ، هر وکتور الگوی باید یک مسابقه را پیدا کند تا تعریف شود.

برای دریافت سامپن ، ابتدا دو ضرایب را در M R و B M R محاسبه می کنیم:

a i ، n m r = 1 n - m - 1 ∑ j = 1 ، j ≠ i n - m تعداد دفعاتی که d x → j ، m + 1 - x → i ، m + 1< r and B i , n m r = 1 n − m − 1 ∑ j = 1 , j ≠ i n − m number of times that d x → j , m − x → i , m < r .

برچسب ها

ثبت دیدگاه

مجموع دیدگاهها : 0در انتظار بررسی : 0انتشار یافته : ۰
قوانین ارسال دیدگاه
  • دیدگاه های ارسال شده توسط شما، پس از تایید توسط تیم مدیریت در وب منتشر خواهد شد.
  • پیام هایی که حاوی تهمت یا افترا باشد منتشر نخواهد شد.
  • پیام هایی که به غیر از زبان فارسی یا غیر مرتبط باشد منتشر نخواهد شد.