1i7 (1i7) wrote,
1i7
1i7

Category:

Большие данные и машинное обучение, лекция: источники информации, источники данных

Большие данные и машинное обучение, лекция: источники информации, источники данных


https://www.youtube.com/watch?v=9Wh8VgPv-IQ
вк: https://vk.com/video53223390_456239458

слайды: Большие данные - лекция-13 - источники данных
Курс Большие данные, машинное обучение, искусственный интеллект

Где искать данные, если у вас не учебный проект в области МЛ-с-бигдатой? (и не обязательно для бигдаты)

(краткая выжимка из другого невыложенного курса, смысл которого можно свести к "где в интернете можно чекать факты", конечно, с дополнениями и переработками в строну бигдаты и МЛ)


- Готовые датасеты для тестовых задач (много, но скучна)
- Самому собрать и разметить: если есть собственный сервис с достаточным количеством мотивированных пользователей (Гугл рекапча, например) или средства на найм фрилансеров (например, финских заключенных)
- Внутрикорпоративные базы данных (системы ERP)
- Коммерческая аналитика: консалтинговые и аудиторские компании (E&Y, IDC, Garter и т.п.), датасет как продукт
- Государственная статистика: Росстат
- Государственная статистика - открытые данные: data.gov, data.gov.ru, региональные порталы субъектов и муниципалитетов России, порталы министерств и т.п.
- Информационно-поисковые системы: финансы, экономика
- Центробанк
- Справочно-правовые системы: коммерческие, государственные
- НКО, междунароные организации: МВФ (Мировой валютный фонд), SWIFT (Общество всемирных межбанковских каналов связи), МОТ (Международная организация труда), ОЭСР (Организация экономического сотрудничества и развития) и т.п.
- "Народная" статистика (краудсорсинг): numbeo.com
- Открытые научные данные
- Патентные базы
- Библиотеки: государственные оффлайн/онлайн, проблема оцифровки фондов, коммерческие онлайн-библиотеки, общественные онлайн-библиотеки
- Архивы, проблема оцифровки архивов
- СМИ, блоги, форумы и т.п., парсим интернет, Медиалогия
- Цифровые архивы газет
- Большие общественные интернет-проекты (краудсорсинг): Archive.org, Wikipedia, OpenStreetMap, Викиликс, Национальный корпус русского языка, Берестяные грамоты и т.п.
- Датамайнинг - парсить интернет: все поисковики делают так, не путайте скраппинг со сбором персональных данных (история с Кембридж Аналитикой), суд США vs LinkedIn (скраппить в США можно официально)
- Другие проекты по оцифровке книг, истории, объектов культуры
- Задание для курсового проекта
Tags: базы данных, большие данные, машинное обучение, нгту, образование, прикладная математика, фактчек, цифра
Subscribe

Posts from This Journal “фактчек” Tag

  • Post a new comment

    Error

    default userpic

    Your IP address will be recorded 

    When you submit the form an invisible reCAPTCHA check will be performed.
    You must follow the Privacy Policy and Google Terms of use.
  • 2 comments