June 4th, 2021

Большие данные и машинное обучение, лекция-3: табличные данные в Python, библиотека Pandas

Большие данные и машинное обучение, лекция-3: табличные данные в Python, библиотека Pandas


https://www.youtube.com/watch?v=ODFwEwMe8X0
вк: https://vk.com/video53223390_456239561

- Качаем данные: датасет ILO (МОТ - Международная организация труда) ilostat.ilo.org
- Таблица для анализа: средня зарплата по видам деятельности, полу, странам и годам
- Загружаем данные из файла CSV
- Pandas DataFrame - таблица, с которой можно делать что угодно (она же 2д-массив NumPy)
- Произвольный доступ к данным: диапазон строк, диапазон колонок, доступ к отдельный ячейке
- Оператор "квадратные скобки" DataFrame[] vs DataFrame.iloc[]
- Pandas Series - отдельная колонка таблицы (она же 1д-массив NumPy)
- Доступ к колонкам: через квадратные скобки по имени vs ООП-стиль через точку
- Запросы к данным: фильтр строк по значениям, больше волшебства оператора "квадратные скобки"
- Фильтр данных по значениям строковых значений
- Фильтр данных по диапазонам числовых значений
- Составные фильтры: средняя зарплата в стране за выбранный диапазон лет
- Разоблачение волшебства запросов через квадратные скобки: фильтрация данных массивом булевых значений
- Поэлементные логические операторы NumPy
- Статистические операции: минимум (min), максимум (max), среднее (mean), медиана (median)
- Среднее vs медиана (cредняя зарплата vs медианная зарплата)
- Проверка данных на правдоподобность, дополнительная проверка в сторонних источниках: откуда бы ни пришел датасет, всегда ожидайте подвох
- Больше загрузки данных: переименование колонок для приведения к удобному для использования в программе виду
- Склеивание таблиц по ключу: DataFrame.join
- Подключаем к таблице колонку с полным названием страны в дополнение к колонке с трехбуквенным кодом
- Итоги лекции: извлечение _знаний_ из массивов данных
- Задания на самостоятельную работу


*****
замечание на 15-й минуте:
"не-юникодный символ" - имелось ввиду не-аски символ, т.е. как раз юникодный