Abstract

[straipsnis ir santrauka lietuvių kalba; santrauka anglų kalba]
 Šiame straipsnyje nagrinėjamos didžiųjų duomenų regresinės analizės galimybės ir galimi sunkumai. Straipsnyje išskirtos ir paaiškintos pagrindinės juos nusakančios charakteristikos, nustatyti galimi iššūkiai, kylantys didžiųjų duomenų analitikoje. Atsižvelgiant į tai, pasiūlyta keletas didžiųjų duomenų regresinėje analizėje naudojamų metodų, kurie leidžia sumažinti skaičiavimų naštą ir atrinkti nepriklausomus kintamuosius, geriausiai nusakančius priklausomą kintamąjį, bei pasiekti didesnį modelio tikslumą. Vienas iš darbo tikslų – metodų pritaikymas realiems didiesiems duomenims, todėl didelis dėmesys skiriamas tiriamajai daliai. Realių duomenų regresijos modelių sudarymui ir parametrų vertinimui naudojami išskaidytos ir stebinių įtakos indeksu paremtos regresijos metodai, o geriausiai priklausomąjį kintamąjį nusakančių nepriklausomų kintamųjų atrinkimui naudojama LASSO ir LARS regresija. Straipsnyje taip pat pateikiami atlikti modelių tinkamumo ir tikslumo vertinimai, jų tarpusavio rezultatų palyginimai.

Highlights

  • Šių metodų pagrindinis privalumas – stebinių patekimo į imtį nelygių tikimybių, kurios priklauso nuo stebinio įtakos, konstravimas

  • Sudaroma stebinių patekimo į imtį tikimybių matrica * diag p

  • 2015: A Divided Regression Analysis for Big Data, International Journal of Software Engineering and Its Applications

Read more

Summary

Įvadas

Sparti mokslo ir technologijų pažanga per pastarąjį dešimtmetį sąlygojo nepaprastai didelius duomenų kiekius, kurie vis dar auga milžinišku tempu. Ši didžiųjų duomenų era atveria naujas, beprecedentes galimybes tiek šiuolaikinei visuomenei, tiek verslui ir vyriausybėms, sprendžiant įvairius uždavinius, dėl kurių rezultatų galima padaryti visiškai naujas įžvalgas, kurios nebuvo įmanomos ankščiau. Regresinė analizė – vienas populiariausių klasikinėje statistikoje taikomų duomenų analizės metodų. Jos pritaikymas visai didžiųjų duomenų aibei susiduria su sunkumais dėl atsiliekančių kompiuterinių pajėgumų ir dėl žymiai didesnio nepriklausomų kintamųjų skaičiaus. Siekiant išspręsti šias problemas ir rasti balansą tarp modelio tikslumo ir skaičiavimų efektyvumo, būtina ieškoti naujų galimybių didžiųjų duomenų regresinei analizei atlikti. Šio straipsnio tikslas yra apžvelgti regresinės analizės metodų taikymo didiesiems duomenims galimybės, kylančius iššūkius ir galimus sprendimo būdus, pritaikyti keletą didžiųjų duomenų regresinėje analizėje siūlomų metodų realiems duomenims, atlikti jų analizę, gauti statistines išvadas ir palyginti taikomų metodų tikslumą

Literatūros apžvalga
Išskaidyta regresinė analizė
Stebinių įtakos indeksu pagrįsta regresija
Stebinių įtakos indeksu pagrįstos regresijos algoritmas
LASSO regresija
LARS regresija
Išskaidytosios regresijos modeliavimo rezultatai dviejų kintamųjų atveju
Stebinių įtakos indeksu pagrįstos regresijos modeliavimo rezultatai
LASSO regresijos modeliavimo rezultatai
LARS regresijos modeliavimo rezultatai
Full Text
Paper version not known

Talk to us

Join us for a 30 min session where you can share your feedback and ask us any queries you have

Schedule a call

Disclaimer: All third-party content on this website/platform is and will remain the property of their respective owners and is provided on "as is" basis without any warranties, express or implied. Use of third-party content does not indicate any affiliation, sponsorship with or endorsement by them. Any references to third-party content is to identify the corresponding services and shall be considered fair use under The CopyrightLaw.