მონაცემთა ანალიზი და ბიზნეს მოდელირება Python-ში

ლექტორის შესახებ:

ალიკა ბიწაძე

განათლება: ეკონომეტრიკის კათედრის დოქტორანტი – თსუ

არაფორმალური განათლება:
Institute and Faculty of Actuaries – CAA(Certified Actuarial Analyst);
USAID და ილიას სახელმწიფო უნივერსიტეტი – Advanced IT trainings;
DataOps Forset & Maxin AI & USAID – მონაცემთა მეცნიერების კურსი

სამუშაო გამოცდილება:
თიბისი ბანკი – მონაცემთა ანალიტიკოსი პითონის მიმართულებით;
შავი ზღვის საერთაშორისო უნივერსიტეტი – მოწვეული ლექტორი  საგანში “მონაცემთა ანალიზი და ბიზნეს მოდელირება ელექტრონული ცხრილებით”

მოკლე აღწერა:

სილაბუსი:

#კურსის შინაარსიძირითადი მიგნებები
1. პითონის საფუძვლების შესავალი

-კურსის მიზნებისა და ამოცანების განსაზღვრა
-რა არის მონაცემთა ანალიტიკა?
-პროგრამირების ძირითადი ცნებები
-დეველოპერული გარემოს დაყენება(Python, Jupyter Notebook)
-რა არის კერნელის ბირთვი
-პითონის ბიბლიოთეკებთან მუშაობა
-პითონის ძირითადი სინტაქსი
-ცვლადების განსაზღვრა

დავალება : სტუდენტებმა საკუთარ კომპიუტერებზე გამართონ იუპიტერის სამუშაო გარემო.
პროგრამირების ენები ერთმანეთისგან განსხვავდებიან, შესაბამისად ისინი სხვადასხვა სამუშაო გარემოს დახმარებით იმართებიან
2. მონაცემთა ტიპები და ოპერატორები

-ფუნდამენტურიმონაცემებისტიპები(ტექსტური, რიცხვითი,მიმდევრობითი, ბულის და სხვა)
-მონაცემთა ტიპის შეცვლა
-პითონის ოპერატორები(არითმეტიკული, მინიჭების,შედარების,ლოგიკური და სხვა)

დავალება: ტექსტური და არითმეტიკული ოპერაციების შესრულება
როგორ ურთიერთობენ მონაცემები პითონში
3. სამართავი სტრუქტურები და ფუნქციები

-პირობითი ოპერატორები(if,elif,else)
ციკლები(for,while)
-ფუნქციების შექმნა და გამოძახება
-სტუდენტის მიერ დაწერილი ფუნქციების შენახვა პითონის ფაილში და გამოძახება
-შეცდომების და გამონაკლისების დამუშავება პითონში(Try Except)

დავალება:  ფუნქციების დაწერა, შენახვა და გამოყენება
ყველას შეუძლია საკუთარი ფუნქციათა ფაილი დაწეროს და სხვას გაუზიაროს
4.დავალების წარდგენა
5. მონაცემების იმპორტი და მოქმედებები ცხრილებზე

-შესავალი მონაცემთა ანალიტიკაში Python-ით
-პითონში მონაცემების ჩაწერა და წაკითხვა
-DataFrames და სერიებთან მუშაობა
-მონაცემების ინდექსირება და შერჩევა
-მონაცემთა მანიპულაცია Pandas-ში
-ცხრილების გაერთიანება(join)
-ცხრილის ძირითადი სტატისტიკის გამოტანა
-შედეგების მოსახერხებელ ფორმატში შენახვა

დავალება : მონაცემების იმპორტი და ცვლილებების შეტანა
როგორც ექსელის ცხრილში შეგვიძლია შევინახოთ გარკვეული ინფორმაცია და მასზე მოვახდინოთ გარდაქმნები, იგივე მოქმედებები შეგვიძლია შევასრულოთ Pandas_ის DataFrame ში. მიღებული შედეგები კი ისევ ექსელის ცხრილში შეიძლება ჩაიწეროს
6. მონაცემთა გაწმენდა და წინასწარი დამუშავება

-დროით, სივრცულ და პანელურ  მწკრივებთან მუშაობა
-მონაცემთა გაწმენდა და გამოტოვებულ მნიშვნელობებთან მუშაობა(წაშლა, სხვადასხვა ტიპის იმპუტაცია)
-მონაცემთა ტრანსფორმაცია, სტანდარტიზაცია, ნორმალიზაცია
-კატეგორიული მონაცემების დამუშავება
-მონაცემთა აგრეგაცია და ცხრილის შეჯამება
-მარტივი მონაცემთა ვიზუალიზაციების აგება Pandas-ში.

დავალება : მონაცემთა ტრანსფორმაცია
უხეშად რომ ვთქვათ, მთლიანი პროექტის დროის დაახლოებით30-70% სჭირდება მონაცემთა მოწესრიგებას და სამუშაო მდგომარეობამდე მიყვანას.
7. მონაცემთა ვიზუალიზაცია

-შესავალი მონაცემთა ვიზუალიზაციაში
-Matplotlib საბაზისო გრაფიკების ასაგებად
-Seaborn სტატისტიკური გრაფიკების ასაგებად

დავალება : მონაცემთა ვიზუალიზაცია
მონაცემთა ვიზუალიზაცია გვეხმარება კომპლექსური მონაცემების მარტივად აღქმაში
8.დავალების წარდგენა
9. Excel-დან Python-ზე გადასვლა

-Excelის ფუნქციების შედარება Pandas-თან
-Excelის ამოცანების გადატანა პითონში
-Pivot Table პითონში

დავალება : ექსელის ამოცანების პითონით შესრულება
ფაქტიურად ყველა იმ ამოცანის შესრულება, რომელიც შესაძლებელია Excel-ში, შესაძლებელია ასევე პითონშიც, ამასთან, ავტომატურად, უფრო დიდ მასშტაბებში და უფრო სწრაფად
10. შესავალი სტატისტიკაში

-ძირითადი სტატისტიკური ცნებები
-აღწერითი სტატისტიკა
-პროცესის განაწილება და ძირითადი მახასიათებლები
-მონაცემებში პათოლოგიური დონეების განსაზღვრა(outliers)
-ჰიპოთეზების შემოწმება
-StatsModels-ით ორი მწკრივის ერთგვაროვნების ჰიპოთეზის ტესტირება

დავალება : სტატისტიკური ანალიზი
სხვადასხვა ტიპის პროცესი განსხვავებული განაწილებებით აღიწერება, შესაბამისად, ორი განსხვავებული პროცესის მოდელირებისთვის ერთსა და იმავე მიდგომას ვერ გამოვიყენებთ
11. მანქანური და სტატისტიკური სწავლების შესავალი

-Scikit-Learn და StatsModels ბიბლიოთეკების მიმოხილვა
-სტატისტიკური და მანქანური სწავლების მიმოხილვა
-supervised and unsupervised სწავლება

დავალება : ბიბლიოთეკების გამოყენება სხვადასხვა ამოცანების გადასაჭრელად
ვსაუბრობდეთ მონაცემთა ანალიტიკაზე, პროცესების მომავალი მნიშვნელობების განსაზღვრაზე და არ გამოვიყენოთ სტატისტიკური და ახლა უკვე მანქანური სწავლების მეთოდები, ალბათ უტოპიაა
12.დავალების წარდგენა
13. წრფივი რეგრესია

-შესავალი წრფივ რეგრესიაში
-ერთ და მრავალფაქტორიანი წრფივი რეგრესია Scikit-Learn და StatsModels-ში
-Overestimation და Underestimation პრობლემები
-მოდელის ვალიდაცია (train-test)
-მოდელის შეფასების მეტრიკები( RMSE, MAE, R-squared)
-მოდელის გამოყენებით პროგნოზის აგება

დავალება : რეგრესიული მოდელის აგება და შეფასება
მონაცემებს შორის ურთიერთკავშირის გამოვლენის და ერთი ცვლადის საშუალებით მეორე ცვლადის პროგნოზირების ყველაზე მარტივი ფორმა სწორედ წფრივი რეგრესიაა
14. კლასიფიკაციის ალგორითმები

-შესავალი კლასიფიკაციის ამოცენებში
-ლოჯისტიკური რეგრესია
-Decision trees
-Random forests
-კლასიფიკაციის მოდელის შეფასება(accuracy, precision, recall, F1-score)

დავალება : კლასიფიკაციის მოდელის აგება და შეფასება
დისკრეტული ტიპის მიზნობრივი ცვლადისთვის კლასიფიკაციის მოდელები გამოიყენება
15.კურსის მიმოხილვა და სამომავლო მიმართულებების მიცემა

-ფინალური პროექტის შერჩევა
-შესრულებულლი ამოცანების  განხილვა
-სამომავლო დირექტივების მიცემა
-მონაწილეთა უკუკავშირი და კურსის შეფასება
თქვენ შეგიძლიათ მონაცემები აქციოთ გადაწყვეტილებად
16.ფინალური პროექტის წარდგენა