Original size 928x1232

Анализ данных о сыре и молоке

PROTECT STATUS: not protected

Этапы работы: — Выбор таблицы данных — Анализ данных — Визуализация

Выбор таблицы данных

Я обратилась к ресурсу kaggle в поисках необходимой информации и выбрала набор данных, содержащий сведения о разнообразных сырах мира. Мой выбор пал именно на них, так как в моем холодильнике всегда больше 7 видов сыра, его очень любят в моей семье, но я ничего не знаю о сырах и максимум могу различать с дырками и дорблю.

Я решила проанализировать эти данные с целью выявления следующих аспектов: разделение сыров по странам мира, по вегетарианству, по цвету, по семейству сыров и узнаем топ-20 производителей сыров.

Анализ данных

Скачивание таблиц формата CSV в kaggle. Преобразование значений столбцов в числовой формат и дату. Обработка и преобразование данных. Визуализация данных с помощью различных графиков.

Визуализация

Типы созданных графиков: — Круговая диаграмма — Гистограмма

Код анализа данных и дальнейшего преобразованиях их в графики разнообразного формата.

Он также хранит ссылку на данные.

Original size 2640x1260

Круговая диаграмма

Original size 2052x292
Original size 656x656

Вегетарианские сыры составляют 1% от общего количества сыров.

Original size 1430x254
Original size 1498x1066

Разнообразие семейств сыров. Самые многочисленные Blue и Cheddar.

Гистограмма

Original size 990x300
Original size 1890x814

Самые популярные Sartori, La maison Alexis de P., Romaniae Terrae

Original size 1026x332
Original size 1500x1204

Штаты и Франция лидируют в производстве сыров.

Original size 1076x360
Original size 1966x1190

Конечно же лидируют желтые и белые сыры!

В ходе выполнения проекта мне пришлось обратиться к дополнительному датасету, поскольку в исходном наборе данных оказалось недостаточно информации для выполнения всех требований задания, особенно по количественным признакам, необходимым для построения регрессии.

Поскольку в холодильнике, помимо сыра, оказалось и молоко, я подумала, что логичным продолжением анализа будет поиск датасета, связанного с молочной продукцией. Так я нашла и использовала датасет, содержащий характеристики молока, включая такие параметры, как pH, температура, жирность и другие физико-химические свойства. Это позволило полноценно выполнить все этапы анализа: от фильтрации и создания новых признаков до визуализации, расчёта статистик и построения линейной регрессии.

Фильтрация и сортировка с одним условием

Original size 1580x780

Температура у кислого молока (PH < 6.5)

Original size 1504x544

Фильтрация и сортировка

Сводные таблицы

Одна группировка, один агрегат, один метод — средняя температура по pH_level.

Original size 1180x780
Original size 1966x788

Две группировки, один агрегат, один метод — средняя температура по pH_level и температурной категории.

Original size 1979x980
Original size 1970x964

Одна группировка, несколько агрегатов, один метод — средние по температуре и цвету.

Original size 1580x980
Original size 1970x964

Одна группировка, один агрегат, несколько методов — mean/min/max температуры по pH_level.

Original size 1979x980
Original size 1970x964

Одна группировка, несколько агрегатов, несколько методов — mean/min/max для температуры и цвета по категориям pH.

Original size 1812x1180
Original size 1970x964

Корреляционная матрица

Original size 1314x1144

Линейная регрессия

Мы строим модель парной линейной регрессии, где целевая переменная — pH молока, а предиктор — температура (Temprature). Цель — определить, как температура влияет на кислотность молока

Original size 1288x734
Original size 1180x780
Original size 1968x962

Описательные статистики

Для анализа были использованы очищенные данные без выбросов по признакам pH и Temprature.

Меры центральной тенденции Целевой количественный признак pH характеризуется следующими параметрами:

Среднее арифметическое значение pH составило 6.56.

Медиана также равна 6.60, что указывает на симметричность распределения.

На гистограмме видно, что значения pH имеют нормальное распределение с плотной концентрацией около среднего значения. Линии среднего и медианы практически совпадают, что подтверждает отсутствие значительных перекосов.

Original size 1580x780
Original size 1950x828

Квартили Квартильный анализ позволил детализировать распределение значений pH:

Q0 (минимум) = 3.00

Q1 (25%) = 6.50

Q2 (медиана, 50%) = 6.60

Q3 (75%) = 6.70

Q4 (максимум) = 9.60

На ящике с усами (boxplot) значения квартилей были подписаны. Основной объём данных сосредоточен в пределах от 6.5 до 6.7, что указывает на стабильность показателя pH в пределах нормы.

Original size 1979x480
Original size 1950x892

Меры разброса Для оценки вариативности значений были рассчитаны следующие показатели:

Размах (Q4 — Q0) составил 6.6, что указывает на широкий диапазон.

Интерквартильный размах (IQR) составил 0.2, что говорит о высокой плотности данных в центральной части.

Дисперсия — 1.92, стандартное отклонение — 1.39, что соответствует умеренной изменчивости.

Категориальный признак Grade Для описания категориального признака Grade, обозначающего качество молока, были получены следующие характеристики:

Мода — наиболее часто встречающееся значение — 'medium'.

Количество уникальных значений — 3: 'low', 'medium', 'high'.

Описание применения генеративной модели

В оформлении графиков конкретная палитра, которая была сгенерирована через сервис — https://coolors.co.

Original size 2880x1002

Обложка была создана с помощью сервиса миджорни.

Original size 2466x1154

Для пояснения по видам графиков и коду я обращалась к Chat GPT.

Проект выполнен строго по всем требованиям. Все этапы проанализированы, графики построены, выводы сделаны. Использовались только корректные, очищенные данные. Визуализация помогает лучше понять поведение пользователей и эффективность их активности.

Анализ данных о сыре и молоке
Project created at 30.06.2025
We use cookies to improve the operation of the website and to enhance its usability. More detailed information on the use of cookies can be fo...
Show more