Abstract
[straipsnis ir santrauka lietuvių kalba; santrauka anglų kalba]
 Šiame straipsnyje nagrinėjamos didžiųjų duomenų regresinės analizės galimybės ir galimi sunkumai. Straipsnyje išskirtos ir paaiškintos pagrindinės juos nusakančios charakteristikos, nustatyti galimi iššūkiai, kylantys didžiųjų duomenų analitikoje. Atsižvelgiant į tai, pasiūlyta keletas didžiųjų duomenų regresinėje analizėje naudojamų metodų, kurie leidžia sumažinti skaičiavimų naštą ir atrinkti nepriklausomus kintamuosius, geriausiai nusakančius priklausomą kintamąjį, bei pasiekti didesnį modelio tikslumą. Vienas iš darbo tikslų – metodų pritaikymas realiems didiesiems duomenims, todėl didelis dėmesys skiriamas tiriamajai daliai. Realių duomenų regresijos modelių sudarymui ir parametrų vertinimui naudojami išskaidytos ir stebinių įtakos indeksu paremtos regresijos metodai, o geriausiai priklausomąjį kintamąjį nusakančių nepriklausomų kintamųjų atrinkimui naudojama LASSO ir LARS regresija. Straipsnyje taip pat pateikiami atlikti modelių tinkamumo ir tikslumo vertinimai, jų tarpusavio rezultatų palyginimai.
Highlights
Šių metodų pagrindinis privalumas – stebinių patekimo į imtį nelygių tikimybių, kurios priklauso nuo stebinio įtakos, konstravimas
Sudaroma stebinių patekimo į imtį tikimybių matrica * diag p
2015: A Divided Regression Analysis for Big Data, International Journal of Software Engineering and Its Applications
Summary
Sparti mokslo ir technologijų pažanga per pastarąjį dešimtmetį sąlygojo nepaprastai didelius duomenų kiekius, kurie vis dar auga milžinišku tempu. Ši didžiųjų duomenų era atveria naujas, beprecedentes galimybes tiek šiuolaikinei visuomenei, tiek verslui ir vyriausybėms, sprendžiant įvairius uždavinius, dėl kurių rezultatų galima padaryti visiškai naujas įžvalgas, kurios nebuvo įmanomos ankščiau. Regresinė analizė – vienas populiariausių klasikinėje statistikoje taikomų duomenų analizės metodų. Jos pritaikymas visai didžiųjų duomenų aibei susiduria su sunkumais dėl atsiliekančių kompiuterinių pajėgumų ir dėl žymiai didesnio nepriklausomų kintamųjų skaičiaus. Siekiant išspręsti šias problemas ir rasti balansą tarp modelio tikslumo ir skaičiavimų efektyvumo, būtina ieškoti naujų galimybių didžiųjų duomenų regresinei analizei atlikti. Šio straipsnio tikslas yra apžvelgti regresinės analizės metodų taikymo didiesiems duomenims galimybės, kylančius iššūkius ir galimus sprendimo būdus, pritaikyti keletą didžiųjų duomenų regresinėje analizėje siūlomų metodų realiems duomenims, atlikti jų analizę, gauti statistines išvadas ir palyginti taikomų metodų tikslumą
Talk to us
Join us for a 30 min session where you can share your feedback and ask us any queries you have
Disclaimer: All third-party content on this website/platform is and will remain the property of their respective owners and is provided on "as is" basis without any warranties, express or implied. Use of third-party content does not indicate any affiliation, sponsorship with or endorsement by them. Any references to third-party content is to identify the corresponding services and shall be considered fair use under The CopyrightLaw.