1i7 (1i7) wrote,
1i7
1i7

Category:

Большие данные и машинное обучение, лекция-3: табличные данные в Python, библиотека Pandas

Большие данные и машинное обучение, лекция-3: табличные данные в Python, библиотека Pandas


https://www.youtube.com/watch?v=ODFwEwMe8X0
вк: https://vk.com/video53223390_456239561

- Качаем данные: датасет ILO (МОТ - Международная организация труда) ilostat.ilo.org
- Таблица для анализа: средня зарплата по видам деятельности, полу, странам и годам
- Загружаем данные из файла CSV
- Pandas DataFrame - таблица, с которой можно делать что угодно (она же 2д-массив NumPy)
- Произвольный доступ к данным: диапазон строк, диапазон колонок, доступ к отдельный ячейке
- Оператор "квадратные скобки" DataFrame[] vs DataFrame.iloc[]
- Pandas Series - отдельная колонка таблицы (она же 1д-массив NumPy)
- Доступ к колонкам: через квадратные скобки по имени vs ООП-стиль через точку
- Запросы к данным: фильтр строк по значениям, больше волшебства оператора "квадратные скобки"
- Фильтр данных по значениям строковых значений
- Фильтр данных по диапазонам числовых значений
- Составные фильтры: средняя зарплата в стране за выбранный диапазон лет
- Разоблачение волшебства запросов через квадратные скобки: фильтрация данных массивом булевых значений
- Поэлементные логические операторы NumPy
- Статистические операции: минимум (min), максимум (max), среднее (mean), медиана (median)
- Среднее vs медиана (cредняя зарплата vs медианная зарплата)
- Проверка данных на правдоподобность, дополнительная проверка в сторонних источниках: откуда бы ни пришел датасет, всегда ожидайте подвох
- Больше загрузки данных: переименование колонок для приведения к удобному для использования в программе виду
- Склеивание таблиц по ключу: DataFrame.join
- Подключаем к таблице колонку с полным названием страны в дополнение к колонке с трехбуквенным кодом
- Итоги лекции: извлечение _знаний_ из массивов данных
- Задания на самостоятельную работу


*****
замечание на 15-й минуте:
"не-юникодный символ" - имелось ввиду не-аски символ, т.е. как раз юникодный
Tags: базы данных, математика, машинное обучение, нгту, образование, прикладная математика, программирование, экономия
Subscribe

Posts from This Journal “базы данных” Tag

  • Post a new comment

    Error

    default userpic

    Your IP address will be recorded 

    When you submit the form an invisible reCAPTCHA check will be performed.
    You must follow the Privacy Policy and Google Terms of use.
  • 0 comments