1i7 (1i7) wrote,
1i7
1i7

Category:

Курс Большие данные, машинное обучение, искусственный интеллект

(он же «Базы данных» — семестр 2), семестр 1 здесь

Как обычно, курс обзорный - всего понемногу, с практическим уклоном (почти для каждой лекции - практическая лаба) - так, чтобы потом в любую из областей можно было заглубиться самостоятельно. Немного контекста, немного математики, немного кода на Пайтоне. Это уже третий заход, но первые два получились не особо интересными (по случайным статьям из интернета и курса по ML Вышки с Курсеры), на этот раз подошел более основательно и закупил почти все книги по машинному обучению, которые нашел на русском языке. По этому поводу заявляю: книги всё еще лучше, чем интернет. Но нормального объяснения основ нейронных сетей и градиентного спуска не нашел ни в интернете, ни в литературе, так и пришлось делать всё самому. В целом, получилось норм (я сам доволен), хотя многое еще находится в статусе черновика.

Студенты - 3й курс Цифровая экономика (Прикладная математика и информатика) и просто Прикладная математика и информатика в НГТУ им Р.Е.Алексеева (1-я часть курса - обычные базы данных, осенний семестр; 2-я часть курса - бигдата, весенний семестр).

- Большие данные - лекция-1 - введение
https://speakerdeck.com/sadr0b0t/bol-shiie-dannyie-liektsiia-1-vviedieniie

Вступление получилось (как сейчас стало понятно, начальную часть сделал 3 года назад) немного бихевиористским, но здесь оно всё равно в тему. Главное не забывать, что если нам в некоторой ситуации удобно рассматривать предмет как некоторую ограниченную модель, не следует потом смешивать рассматриваемый предмет и его модель, т.е. принимать модель за предмет.

И еще там в середине (где слайды о том, как сейчас много всего оцифровано в интернете) может показаться немного восторженный текст, но я эти же тезисы парирую на словах кое-какими дополнительными комментариями (что там на самом деле плавает в цифровых океанах и сколько всего еще не оцифрвано - отдельная история), но пока на слайдах лень исправлять.

- Большие данные - лекция-2 - MNIST + nolearn + lasagne
https://speakerdeck.com/sadr0b0t/bol-shiie-dannyie-liektsiia-2-mnist-plus-nolearn-plus-lasagne

- Большие данные - лекция-3 - Титаник + pandas
https://speakerdeck.com/sadr0b0t/bol-shiie-dannyie-liektsiia-3-titanik-plus-pandas
Python как «эксель» без мышки (работа с табличными данными), Pandas + Титаник

- Большие данные - лекция-4 - Титаник + Matplotlib + Pandas
https://speakerdeck.com/sadr0b0t/bol-shiie-dannyie-liektsiia-4-titanik-plus-matplotlib-plus-pandas
Визуализация данных с pandas и matplotlib

- Большие данные - лекция-5 - работа с категориями и текстами
https://speakerdeck.com/sadr0b0t/bol-shiie-dannyie-liektsiia-5-rabota-s-katieghoriiami-i-tiekstami
Работа с текстом: категории, мешок слов, tf-idf, ЕЯ (NLP)

- Большие данные - лекция-6 - тексты - предварительная обработка, NLP - NLTK
https://speakerdeck.com/sadr0b0t/bol-shiie-dannyie-liektsiia-6-tieksty-priedvaritiel-naia-obrabotka-nlp-nltk
Предварительная обработка текста, работа с ЕЯ (NLP), NLTK

- Большие данные - лекция-7 - регрессия - разведочный анализ
https://speakerdeck.com/sadr0b0t/bol-shiie-dannyie-liektsiia-7-rieghriessiia-razviedochnyi-analiz
Регрессия, регрессионная модель — модель предсказания целевой переменной на непрерывной шкале.
Часть 1: разведочный анализ, распределение значений, отношения переменных, корреляция


- Большие данные - лекция-8 - регрессия - построение модели
https://speakerdeck.com/sadr0b0t/bol-shiie-dannyie-liektsiia-8-rieghriessiia-postroieniie-modieli
Регрессия, регрессионная модель — модель предсказания целевой переменной на непрерывной шкале.
Часть 2: построение модели предсказания: линейная модель, криволинейная модель, выбросы, подгонка, оценка качества


- Большие данные - лекция-9 - обучение без учителя, кластеризация
https://speakerdeck.com/sadr0b0t/bol-shiie-dannyie-liektsiia-9-obuchieniie-biez-uchitielia-klastierizatsiia
Обучение без учителя (работа с немаркированными данными), кластеризация: k средних, агломеративная кластеризация, оптимальное число кластеров, области высокой плотности

- Большие данные - лекция-10 - градиентный спуск, адаптивный линейный нейрон
https://speakerdeck.com/sadr0b0t/bol-shiie-dannyie-liektsiia-10-ghradiientnyi-spusk-adaptivnyi-linieinyi-nieiron
Градиентный спуск, двоичная классификация, адаптивный линейный нейрон ADALINE

Более подробный вариант лекции на Хабре: Градиентный спуск по косточкам
бонус в ЖЖ: https://1i7.livejournal.com/116300.html

пока делал статью для Хабра, на слайдах нашел значительное количество опечаток в тексте и на картинках, слайды пока не исправлял, может весной.

- Большие данные - лекция-11 - логистическая регрессия: градиентный спуск с сигмоидой
https://speakerdeck.com/sadr0b0t/bol-shiie-dannyie-liektsiia-11-loghistichieskaia-rieghriessiia-ghradiientnyi-spusk-s-sighmoidoi
Логистическая регрессия: градиентный спуск с сигмоидой

Здесь тоже собираюсь сделать версию для Хабры, добавлю ссылку, как соберусь

- Большие данные - лекция-12 - многослойный перцептрон (многомерный градиент, обратное распространение)
https://speakerdeck.com/sadr0b0t/bol-shiie-dannyie-liektsiia-12-mnoghosloinyi-piertsieptron-mnoghomiernyi-ghradiient-obratnoie-rasprostranieniie
Обучение нейронной сети: обратное распространение ошибки, дифференцирование сложной функции

спойлер: сетку из 3-х нейронов так и не обучил, но в процессе успел вскрыть некоторые интересные вещи, поэтому оно того все равно стоит (надеюсь, что к новому кругу лекций, т.е. весной ближе к лету, доучу)

- Большие данные - лекция-13 - источники данных
https://speakerdeck.com/sadr0b0t/bol-shiie-dannyie-liektsiia-13-istochniki-dannykh
Источники информации, источники данных

Где добывать данные для моделей (для этой лекции теги - "фактчек" и "цифра")

- Большие данные - лекция-14 - итоги, вычислительная техника, ИИ, ИР, кибернетика
https://speakerdeck.com/sadr0b0t/bol-shiie-dannyie-liektsiia-14-itoghi-vychislitiel-naia-tiekhnika-ii-ir-kibiernietika
Итоги, из истории вычислительной техники, ИИ, кибернетики


Материалы: разные статьи из интернета (MNIST), первые лекциии с Титаником - курс ВШЭ на Курсере, дальше разные темы в основном - Себастьян Рашка "Python и машинное обучение", в конце - нейронные сети Рашка, Николенко "Глубокое обучение", мои собственные изыскания и изо всех остальных книг по чуть-чуть.

Да, для историко-философской части еще: Норберт Винер «Кибернетика, или управление и связь в животном и машине», «История информационных технологий в СССР» под общей редакцией Ю.В.Ревича, Джон Фон Нейман «Вычислительная машина и мозг».

Под катом обзор закупленных книжек - некоторые использовал очень плотно, некоторые просто полистал.



Весной я решил, что второе полугодие баз данных лучше посвятить не продолжению ковыряния SQL и NoSQL, а машинному обучению с большими данными. Новая тема для занятий - хороший повод изучить вопрос самому. Когда курсеры с обрывками статей на хабре перестало хватать, закупился бумажной литературой.



Глубокое обучение. Я. Гудфеллоу, И. Бенджио, А. Курвиль.
Положительная рецензия самого Илона Эрроловича красуется на обложке. Книга внушает. Толстый том, заполненный текстом мелким шрифтом, пестрят математические формулы, мало картинок. Программного кода нет совсем. Первые главы - основы линейной алгебры, теория вероятностей, теория информации, численные методы, это внушает и похоже на системный подход. В начале есть историческая справка. Но когда я попытался по ней основательно разобрать некоторые вопросы, испытал небольшой облом. Формулы между абзацами текста появляются ниоткуда и ни к чему не приводят. Текст, в общем, тоже читается так, как будто читатель должен быть в курсе некоторого количества вещей, которые предварительно могут не излагаться. В целом, производит впечатление собранных в одном месте заметок и готовых результатов, которые были получены где-то в другом месте. Возможно, это хорошо для товарищей, которые глубоко в теме и работают над реализацией и доработкой каких-то алгоритмов - вероятно, эти выкладки могут быть использованы ими в качестве готовых решений как есть или навести на правильный ход мыслей. Но я надеялся увидеть изложение базовых вещей, но не на пальцах, а системно с последовательными математическими выкладками. На пальцах там нет, но и последовательной системы я тоже не увидел. Скорее всего я еще до нее не дорос. Купить все равно можно.



Создаем нейронную сеть. Тарик Рашид. (по наводке Михаила Царькова, купил в Библиоглобусе)
Полная противоположность Гудфеллоу. Берет одну тему (нейронная сеть) и разжевывает ее и так и эдак, включая аналогии и пальцы. На мой вкус местами уже слишком многословно. Примеры кода на Пайтоне. Есть некоторое количество математики, но из-за чрезмерных упрощений я на некоторые нюансы, которые надеялся прояснить, ответы тоже не получил. В общем, если бы я начал с нее, это все равно было бы хорошее начало (не по бигдате вообще, а конкретно по нейронкам).



Python и машинное обучение. Себастьян Рашка.
Очень хорошая книга. Стандартный набор тем (классификация, регрессия, кластеризация, тексты, нейросети и т.п.) - всего понемногу, но для первого погружения вполне достаточно. В меру подробные пояснения, встречаются последовательные математические выкладки с формулами, каждая тема сопровождается примерами кода на Пайтоне. И все-таки математические выкладки до системы не дотягивают (впрочем, в книге такой цели нет, поэтому это нельзя записать в минус). Встретил некоторое количество опечаток, в том числе на картинках, сложилось впечатление, что автор в некоторых местах мог сам не разобраться до конца. Курс на 70% составлял по ней. Если не понятно, с чего начинать, это будет достаточно хорошее, если не лучшее, начало.



Глубокое обучение. Погружение в мир нейронных сетей. С. Николенко, А. Кадурин, Е. Архангельская. (купил до кучи в Библиоглобусе, в который приехал специально за Рашидом; как выснилось, покупка Рашида оказалась удачным поводом купить Николенко)
Первая (по словам авторов) книга, написанная (а не переведенная) сразу на русском языке. Фокус на нейронных сетях, в том числе генеративных. Настоящая находка. Вместо подробностей: люди, которые используют в эпиграфах к каждой подглавке цитаты из Достоевского, Аристотеля, Салтыкова-Щедрина, Эдгара По, Братьев Гримм, Карамзина, Тургенева, Лавкрафта, Набокова, Ильфа и Петрова, Нила Стивенсона, Карла Маркса, Патриарха Тихона, Криштиану Рональду, Ницше, не могут написать плохую книгу. Ну и картинки с котиками, да.

updt: в фейсбуке пишут, что Николенко играл в телевизоре в Что Где Когда



Программирование компьютерного зрения на языке Python. Ян Эрик Солем.
Специфическая штука. Наборы разных рецептов и подходов в приложении к работе с картинками. Встречаются кой-какие формулы. Код, внезапно, на Пайтоне. Подробно не разбирался.




Глубокое обучение с точки зрения практика. Джош Паттерсон, Адам Гиббсон.
Купил, но толком изучить не успел. Код на Яве.


фб, вк

Tags: базы данных, математика, машинное обучение, нгту, образование, прикладная математика, программирование, роботы, фактчек, цифра
Subscribe

Posts from This Journal “машинное обучение” Tag

  • Post a new comment

    Error

    default userpic

    Your IP address will be recorded 

    When you submit the form an invisible reCAPTCHA check will be performed.
    You must follow the Privacy Policy and Google Terms of use.
  • 5 comments