Big Data

Big Data: როცა ზომა მნიშვნელოვანია

თუ ინტერნეტში გრიპის სიმპტომების შესახებ ინფორმაციას ეძებთ, არ ნიშნავს, რომ აუცილებლად ავად ხართ. მაგრამ როცა მსგავსი ინფორმაცია ერთ რეგიონში მცხოვრებ ძალიან ბევრ ადამიანს ერთდროულად აინტერესებს, მაშინ იქ გრიპის ეპიდემიაა მოსალოდნელი.

ამ ლოგიკით ხელმძღვანელობდნენ ჯერემი გინზბერგი და მისი კოლეგები გუგლიდან, როცა ეპიდემიის პროგნოზირების სისტემაზე მუშაობდნენ. მათი იდეა იყო დაედგინათ კავშირი გარკვეული რეგიონიდან შემოსულ საძიებო ფრაზებსა და ამ რეგიონში გრიპის ეპიდემიას შორის. წინა წლებში გავრცელებულ ეპიდემიებზე ინფორმაცია აშშ-ის დაავადებათა მართვის და პრევენციის ცენტრებიდან (CDC) აიღეს. მონაცემებს საძიებო ფრაზებსა და შესაბამისი IP მისამართების შესახებ თავად გუგლი ინახავს. ცდების შედეგად 45 ფრაზა შეირჩა, რომელთა ძებნის სიხშირეს და გრიპის ეპიდემიას შორის საკმაოდ მაღალი კორელაცია აღინიშნა.

ამ ფრაზების დადგენა იოლი არ ყოფილა. გუგლის საძიებო მიზნების ბაზა ძალიან დიდია: ყველა შეკითხვა, რაც სისტემაში შედის, კომპანიას არქივირებული აქვს. 2009 წელს, როცა პროგნოზირების სისტემის შექმნის ექსპერიმენტი ჩატარდა, გუგლი დღეში მილიარდზე მეტ მიზანს ამუშავებდა. მონაცემთა ამ უზარმაზარი სიმრავლიდან მკვლევრებმა თავიდან 50 მილიონი საძიებო სიტყვა შეარჩიეს, რომელიც წინა ხუთი წლის განმავლობაში ყველაზე ხშირად იყო გამოყენებული. შემდეგ თითოეული მათგანი სპეციალური ალგორითმით შეამოწმეს, თუ რამდენად შეესაბამებოდა გრიპის ეპიდემიის შემთხვევებს. მომდევნო ნაბიჯზე, მოდელის გაუმჯობესების მიზნით, უკვე საინტერესოდ მიჩნეული მიზნების კომბინაციები სცადეს. ამ ყველაფერს ძალიან დიდი გამოთვლების ჩატარება დასჭირდა. ცხადია, რომ მონაცემთა ამხელა სიმრავლიდან საინტერესო ფრაზების ხელით, კომპიუტერის დახმარების გარეშე ამორჩევის მცდელობას წარმატების შანსი არ ექნებოდა.

ეპიდემიის პროგნოზირებისადმი გუგლის მიდგომით, პრაქტიკულად, მყისიერად შეიძლება დადგინდეს ამა თუ იმ რეგიონში ეპიდემიის თუ პანდემიის საფრთხე მაშინ, როცა CDC-ს ამისთვის ინტერნეტ-ძებნის გიგანტთან შედარებით ორი კვირით მეტი დრო სჭირდება.

ეპიდემიის პროგნოზირების გუგლის სისტემა დიდი მონაცემების (Big Data) დამუშავების ერთ-ერთი მაგალითია. უნდა ითქვას, რომ თავად Big Data-ს განსაზღვრება, ცოტა არ იყოს, ბუნდოვანია, მაგრამ მათში, როგორც წესი, იგულისხმება მონაცემთა სიმრავლე, რომელთა შეგროვება, შენახვა, მართვა და ანალიზი მონაცემთა ბაზებთან მუშაობის თანამედროვე პროგრამულ საშუალებებს არ შეუძლია. დროთა განმავლობაში, როცა ეს საშუალებები გაუმჯობესდება, დიდ მონაცემებად ჩათვლილი მონაცემების ზომაც გაიზრდება. დღეისათვის ამ ზომის ქვედა ზღვრად რამდენიმე ათეული ტერაბაიტი (ზოგ სექტორში რამდენიმე პეტაბაიტი) ითვლება. შედარებისთვის, კონგრესის ბიბლიოთეკის ტექსტების მოცულობა 20 ტერაბაიტამდეა, ადამიანის მეხსიერების მოცულობა – დაახლოებით 2.5 პეტაბაიტი.

დიდ მონაცემებზე საუბრისას მრავალი კითხვა წარმოიშობა: რა არის მონაცემი? ზომა დიდი მონაცემის განსაზღვრის ერთადერთი კრიტერიუმია? რა ინფორმაციის და დასკვნების გამოტანა შეიძლება დიდი მონაცემებიდან, რასაც „მცირე მონაცემებიდან" ვერ მოვახერხებთ? რატომ გახდა ეს მიმართულება ასეთი პოპულარული? ხომ არ შეზღუდავს იგი პიროვნების თავისუფლებას? რა გამოწვევებს უყენებს მათემატიკას, ინფორმატიკას, სხვა მეცნიერებებს? მათზე პასუხის გაცემის მცდელობები ბოლო წლებში გამოცემულ წიგნებში, მოხსენებებში, სამეცნიერო სტატიებში თუ სხვა, შესაბამის ლიტერატურაში მრავლადაა.

პირველ რიგში, თვალშისაცემია მონაცემის ცნების საკმაოდ ლიბერალური გამოყენება. მონაცემად ითვლება ყველაფერი, რასთანაც რაიმე რიცხვითი სიდიდის დაკავშირება, გარკვეული აზრით, გაზომვაა შესაძლებელი. ეს შეიძლება იყოს, ვთქვათ, ტემპერატურა რაიმე გეოგრაფიულ არეალში, გაციფრულებული წიგნებიდან ამოკრეფილი სიტყვები, ფეისბუქის „ლაიქები" თუ ლინკდინის პროფესიული კავშირები.

ქსფორდის პროფესორი ვიქტორ მაიერ-შიონბერგერი და ჟურნალ ეკონომისტის მონაცემთა რედაქტორი კენეთ ქუკიე წიგნში „დიდი მონაცემები: რევოლუცია, რომელიც გარდაქმნის ჩვენს ცხოვრებას, შრომას და აზროვნებას" (Viktor Mayer-Schönberger, Kenneth Cukier. Big Data: A Revolution That Will Transform How We Live, Work, and Think. Houghton Mifflin Harcourt; Boston, MA: 2013) ამ პროცესს „datafication"-ს უწოდებენ, რაც ქართულად ალბათ „მონაცემიზაციად" შეიძლება ითარგმნოს, რაც ცხოვრების ნებისმიერი ასპექტის მონაცემად განხილვას გულისხმობს.

დიდი მონაცემების განსაზღვრებათა უმეტესობა შესანახი მონაცემის ზომაზეა ფოკუსირებული. თუმცა, ზომა არაა ერთადერთი დამახასიათებელი თვისება. მონაცემთა ნაირსახეობა და მათი დამუშავების სისწრაფე არანაკლებ მნიშვნელოვანი ატრიბუტებია. ეს არის ეგრეთ წოდებული სამი V-ს პრინციპი: Volume, Velocity, Variety.

ციფრული მონაცემების რაოდენობა უდიდესი სისწრაფით იზრდება. თუ 2000 წელს მსოფლიოში არსებული შენახული ინფორმაციის მხოლოდ მეოთხედი იყო ციფრული, დღეს მისი წილი 98 პროცენტია. მონაცემთა მასობრივი შეგროვების მაგალითია ამაზონის მონაცემთა ბაზა მისი 150 მილიონზე მეტი მომხმარებლის მყიდველობითი ქცევის შესახებ, ან დიდ ადრონულ კოლაიდერში ჰიგსის ბოზონის ძებნისთვის ჩატარებული შეჯახებების შესახებ მიღებული ინფორმაცია, რაც 200 პეტაბაიტს შეადგენს.

დიდი მონაცემების შეგროვების ტექნიკა პრინციპულად განსხვავდება ტრადიციული მეთოდისგან: ნაცვლად რეპრეზენტაციული შერჩევისა, გროვდება ყველაფერი. მონაცემთა აბსოლუტური სიზუსტე არ მოითხოვება, მცირეოდენი გადახრები დასაშვებია. ეს იდეა მოკლედ ასე შეიძლება დახასიათდეს: ბევრი, თუნდაც მოუწესრიგებელი ინფორმაცია სჯობს ცოტას, გინდ ეს ცოტა უფრო ზუსტი იყოს.

მონაცემების შეგროვებისადმი ასეთი მიდგომა მათ გამოყენებაზე მოქმედებს. ისინი უკეთ გამოდგება იმის დასადგენად, თუ რა ხდება ან შეიძლება მოხდეს, ვიდრე იმის ასახსნელად, თუ რატომ ხდება ესა თუ ის მოვლენა. ანუ კაუზაციის ნაცვლად, წინა პლანზე მონაცემებს შორის კორელაციის დადგენა გამოდის. ამის გამო, დიდი მონაცემების ანალიზით მიღებული ინფორმაცია აბსოლუტურად სანდო არაა, რაც გუგლის გრიპის ეპიდემიის სისტემის შედეგებშიც გამოჩნდა, რომელმაც რამდენჯერმე არასწორად იწინასწარმეტყველა ეპიდემიის საშიშროება. ინტერნეტში გრიპის სიმპტომების მასობრივად ძებნის მიზეზი ხომ შეიძლება იყოს, ვთქვათ, ადგილობრივ პრესაში გავრცელებული რაიმე საინტერესო ინფორმაცია და არა ის, რომ მოსახლეობას მასობრივად აცემინებს და ტანში ამტვრევს.

დღეს, შეიძლება ითქვას, დიდ მონაცემებზე დაფუძნებული ბიზნესის ბუმია. IDC-ის ანალიტიკოსების შეფასებით, დიდი მონაცემების ტექნოლოგიების და სერვისების ბაზარი ინფორმაციულ ტექნოლოგიებთან შედარებით ექვსჯერ სწრაფად იზრდება და 2017 წლისთვის მისი ღირებულება 32 მილიარდ დოლარს მიაღწევს. მაკკინზის გლობალური ინსტიტუტის (MGI) მიხედვით, დიდი მონაცემების ეფექტურად გამოყენებას შეერთებული შტატების ჯანდაცვის სისტემის ხარჯების 8 პროცენტით შემცირება შეუძლია, ევროპაში კი ადმინისტრირებაზე 100 მილიარდ ევრომდე შეიძლება დაიზოგოს.

ინტერნეტკომერცია, საცალო ვაჭრობა, ის სფეროა, სადაც ფირმები უკვე იყენებენ დიდი მონაცემების დამუშავებით მიღებულ დასკვნებს. მომხმარებლის ინტერნეტსაქმიანობის ანალიზი, იმის დადგენა, თუ რა მოსწონს მას და ამ ინფორმაციის საფუძველზე მისთვის საინტერესო პროდუქციის შეთავაზება დღეს უკვე უცხო არაა. MGI-ს პროგნოზით, მომავალში ინტერნეტკომპანიებს მომხმარებლის საქმიანობაზე დაკვირვებით მყისიერად, რეალურ დროში შეეძლებათ მისი ქცევის მოდელირება. თუმცა, მეორე მხრივ, აქ ეთიკური ხასიათის პრობლემები წარმოიშობა. კრიტიკოსები თვლიან, რომ ამით საფრთხე ექმნება პირადი ცხოვრების ხელშეუხებლობას, პერსონალური მონაცემების საიდუმლოების დაცვას. რამდენიმე კვირის წინ პრეზიდენტმა ობამამ მეცნიერებასა და ტექნოლოგიებში მრჩეველთა საბჭოს სთხოვა, მოამზადოს დეტალური მოხსენება დიდი მონაცემების და პრივატულობის მიმართების შესახებ.

დიდ მონაცემებზე მუშაობა ავტომატურად მიღებული შედეგების გაანალიზებას მოითხოვს. MGI-ს პროგნოზით, ხუთ წელიწადში დიდი მონაცემების ანალიტიკოსი ერთ-ერთი მოთხოვნადი პროფესია იქნება. ბევრი უნივერსიტეტი სტუდენტებს სთავაზობს სპეციალიზებულ კურსებს დიდი მონაცემებისთვის გამოსადეგი ალგორითმების და თეორიების შესახებ. მონაცემთა ნაკადების ალგორითმები, ქვეწრფივი სირთულის ალგორითმები, მონაცემთა კომპაქტური სტრუქტურები, პარალელური გამოთვლები, რიცხვითი წრფივი ალგებრა, მანქანური სწავლა... ეს მცირე ჩამონათვალია იმ საკითხებისა, რასაც ასეთი კურსები მოიცავენ.

ანვრიდან შესაძლებელი გახდა დიდი მონაცემების ონლაინკურსის მოსმენა, რასაც მასაჩუსეტსის ტექნოლოგიურმა ინსტიტუტმა გაუკეთა ორგანიზება. ამავე ინსტიტუტის კომპიუტერული მეცნიერებების და ხელოვნური ინტელექტის ლაბორატორიაში წელიწადზე მეტია, მუშაობენ დიდი მონაცემებისადმი მიძღვნილ სპეციალურ პროექტზე, სახელწოდებით „bigdata@CSAIL". ეს მულტიდისციპლინური პროექტია და ოთხ ფართო საკვლევ თემას მოიცავს გამოთვლითი პლატფორმების, სკალირებადი ალგორითმების, მანქანური სწავლის და უსაფრთხოების და მონაცემთა დაცვის სახით.

ტექნოლოგიური ცვლილებები, რასაც „დიდი მონაცემების რევოლუციას" უწოდებენ, წარსულიდან ბევრი რამის უკეთ გაგებას და დღევანდელობაში ბევრ გარდაქმნას შეუწყობს ხელს. შესაძლებელი გახდება თუ არა მომავლის უკეთესი დაგეგმვა და პროგნოზირება, ამას დრო გვიჩვენებს. მანამდე კი, დიდ მონაცემებთან მუშაობას ყველაზე უკეთ ალბათ ეს მოწოდება მიესადაგება: „Enjoy responsibly".

კომენტარები