Abstract
Frequent sequence mining in large volume databases is important in many areas, e.g., biological, climate, financial databases. Exact frequent sequence mining algorithms usually read the whole database many times, and if the database is large enough, then frequent sequence mining is very long or requires supercomputers. A new probabilistic algorithm for mining frequent sequences is proposed. It analyzes a random sample of the initial database. The algorithm makes decisionsabout the initial database according to the random sample analysis results and performs much faster than the exact mining algorithms. The probability of errors made by the probabilistic algorithm is estimated using statistical methods.
Highlights
Tikimybinis dažnų posekių paieškos algoritmasSkirti dažnų posekių paieškai, daug kartų perrenka visą duomenų bazę
Frequent sequence mining in large volume databases is important in many areas
It analyzes a random sample of the initial database
Summary
Skirti dažnų posekių paieškai, daug kartų perrenka visą duomenų bazę. Tai paieška yra lėta arba reikalingi superkompiuteriai. Straipsnyje pasiūlytas naujas tikimybinis dažnų posekių paieškos algoritmas, kuris analizuoja tam tikru būdu sudarytą pradinės duomenų bazės atsitiktinę imtį. Tačiau veikia daug greičiau negu tikslieji algoritmai ir tinka žvalgomajai statistinei analizei. Tikimybinis algoritmas gali būti derinamas su tiksliaisiais dažnų posekių paieškos algoritmais. Tai dažnų posekių paieška naudojant tiksliuosius algoritmus, yra lėta arba reikalingi superkompiuteriai. Tikimybiniai algoritmai yra daug greitesni nei tikslieji, nes, užuot atlikę daugybinius pradinės duomenų bazės nuskaitymus, jie analizuoja tam tikru būdu generuotą trumpesnę duomenų imtį. Pagrindinė ApproxMAP algoritmo idėja yra vietoje tikslios posekių paieškos rasti posekius, apytiksliai naudojamus daugelyje kitų posekių. Straipsnyje pasiūlytas tikimybinis dažnų posekių paieškos algoritmas analizuoja tam tikrą pradinės duomenų bazės atsitiktinę imtį.
Talk to us
Join us for a 30 min session where you can share your feedback and ask us any queries you have
Disclaimer: All third-party content on this website/platform is and will remain the property of their respective owners and is provided on "as is" basis without any warranties, express or implied. Use of third-party content does not indicate any affiliation, sponsorship with or endorsement by them. Any references to third-party content is to identify the corresponding services and shall be considered fair use under The CopyrightLaw.