Учебник

ChatGPT для анализа данных: загружаем Excel, CSV и строим графики

Advanced Data Analysis в ChatGPT: загружаем таблицы, пишем Python прямо в чате, строим визуализации и делаем реальный анализ без знания кода.

Макс Космов··15 мин чтения

ChatGPT может быть использован для анализа данных из файлов Excel и CSV, что позволяет загружать и обрабатывать информацию из этих форматов. Для загрузки данных можно использовать различные библиотеки и инструменты, которые интегрируются с ChatGPT. После загрузки данных можно строить графики и выполнять другие виды анализа с помощью встроенных функций ChatGPT.

до про · ChatGPT

Что такое Advanced Data Analysis и как его включить

Advanced Data Analysis - это функция ChatGPT, которая позволяет выполнять сложный анализ данных, включая загрузку и обработку файлов Excel и CSV, построение графиков и диаграмм, а также выполнение статистических расчетов. Эта функция предназначена для пользователей, которые хотят получить более глубокое понимание своих данных и сделать обоснованные решения на основе этих данных.

Чтобы включить Advanced Data Analysis, необходимо выполнить несколько простых шагов. Во-первых, необходимо убедиться, что у вас есть последняя версия ChatGPT. Если у вас есть более ранняя версия, вам может потребоваться обновить программное обеспечение.

Далее, необходимо перейти в раздел настроек ChatGPT и найти опцию "Advanced Data Analysis". Эта опция может быть расположена в разделе "Инструменты" или "Настройки". После того, как вы найдете эту опцию, необходимо активировать ее, поставив галочку в соответствующем поле.

После того, как Advanced Data Analysis будет включен, вы сможете загружать файлы Excel и CSV в ChatGPT и выполнять различные операции с данными. Например, вы можете построить графики и диаграммы, выполнить статистические расчеты, а также выполнить фильтрацию и сортировку данных.

Одной из ключевых особенностей Advanced Data Analysis является возможность загружать файлы Excel и CSV. Это позволяет пользователям работать с большими объемами данных и выполнять сложный анализ. Кроме того, ChatGPT поддерживает различные форматы файлов, включая XLSX, CSV и TXT.

Advanced Data Analysis также включает в себя ряд инструментов для визуализации данных, включая графики, диаграммы и карты. Это позволяет пользователям представить свои данные в наглядной и понятной форме, что облегчает процесс принятия решений.

В целом, Advanced Data Analysis - это мощный инструмент, который позволяет пользователям выполнять сложный анализ данных и получать более глубокое понимание своих данных. С его помощью, пользователи могут принимать обоснованные решения и оптимизировать свои бизнес-процессы.

Загрузка CSV и Excel: форматы, ограничения, кодировки

ChatGPT (модели GPT-4 и GPT-4o) поддерживает загрузку файлов напрямую через интерфейс. Для анализа данных используйте форматы CSV и Excel (.xlsx). Файлы .xls (старый формат Excel 97-2003) не поддерживаются - их нужно конвертировать в .xlsx или CSV перед загрузкой.

CSV: главный формат для анализа

CSV - самый надёжный вариант. ChatGPT читает его построчно без лишних преобразований. Ограничения: максимальный размер файла - 512 МБ для платных подписчиков (ChatGPT Plus, Pro, Team). Для бесплатного аккаунта лимит ниже, около 25 МБ. Если файл больше, разбейте его на части или используйте сжатие (ZIP), но помните: внутри архива файл всё равно не должен превышать лимит.

Кодировка CSV - частая проблема. ChatGPT ожидает UTF-8. Если ваш CSV сохранён в Windows-1251 (русская кириллица в Excel), символы отобразятся кракозябрами. Решение: перед загрузкой пересохраните файл в UTF-8. В Excel: «Файл» → «Сохранить как» → «CSV UTF-8 (разделители - запятые)». В Google Sheets: «Файл» → «Скачать» → «CSV (текущий лист)» - он автоматически даёт UTF-8. Если используете «Блокнот» или Notepad++, откройте CSV, выберите «Кодировки» → «Преобразовать в UTF-8» и сохраните.

Разделители в CSV: по умолчанию запятая. Но русская версия Excel часто использует точку с запятой. ChatGPT это понимает, но лучше явно указать в запросе: «разделитель - точка с запятой». Или пересохраните с запятыми.

Excel (.xlsx): удобно, но с нюансами

ChatGPT читает .xlsx файлы, но только первый лист. Если у вас книга с несколькими листами, объедините нужные данные на один лист или загружайте каждый лист отдельным файлом. Формулы не вычисляются - ChatGPT видит только значения, которые были на момент последнего сохранения. Если в ячейке формула =A1+B1, а A1 и B1 пусты, вы получите 0 или пустоту. Перед загрузкой скопируйте столбец с формулами и вставьте как значения (специальная вставка → значения).

Максимальное количество строк и столбцов: ChatGPT не документирует жёсткие лимиты, но на практике файлы до 100 000 строк и 50 столбцов обрабатываются стабильно. Больше - возможны таймауты или ошибки «слишком большой файл». Решение: загружайте выборку (каждую 10-ю строку) или агрегируйте данные (суммы, средние по группам) прямо в Excel перед загрузкой.

Кодировки и специальные символы

Для .xlsx кодировка не проблема - внутри это ZIP-архив с XML, Unicode. Для CSV - только UTF-8. Если в данных есть кавычки, запятые внутри текста или переносы строк, CSV должен быть правильно экранирован: текст в двойных кавычках, внутренние кавычки удваиваются. ChatGPT справляется с корректным CSV, но битые файлы (например, из кривого экспорта 1С) могут вызвать ошибки. Проверьте CSV в любом текстовом редакторе: данные должны быть ровными колонками.

Практический чек-лист перед загрузкой

  1. Сохраните файл в UTF-8 (CSV) или .xlsx (один лист).
  2. Убедитесь, что нет объединённых ячеек - они читаются как пустые.
  3. Удалите лишние строки с заголовками, примечаниями, итогами внизу таблицы.
  4. Названия столбцов - одной строкой, без пробелов в начале, латиница или кириллица без спецсимволов (лучше латиница).
  5. Если файл больше 50 МБ, загрузите образец (первые 1000 строк) и скажите ChatGPT: «Вот образец, полный файл весит 200 МБ, как анализировать по частям?».

После загрузки дайте команду: «Покажи первые 5 строк, чтобы я убедился, что данные прочитаны верно». Если видите кракозябры - проблема в кодировке, пересохраняйте. Если пустые ячейки там, где должны быть числа - проверьте разделитель целой и дробной части (запятая vs точка). ChatGPT понимает оба варианта, но в одном столбце должен быть единый формат.

Первые вопросы по данным: сводная статистика и поиск аномалий

При работе с данными первым шагом является получение общей картины о характеристиках данных. Для этого используются сводные статистические показатели, такие как среднее значение, медиана, дисперсия и стандартное отклонение. Эти показатели позволяют понять распределение данных и выявить потенциальные аномалии.

Среднее значение дает представление о центральной тенденции данных, но оно может быть чувствительным к выбросам. Медиана, в свою очередь, является более устойчивым показателем, поскольку она не зависит от экстремальных значений. Дисперсия и стандартное отклонение характеризуют разброс данных вокруг среднего значения.

Для поиска аномалий можно использовать методы, такие как анализ коробчатых графиков или диаграмм рассеяния. Коробчатые графики позволяют визуально оценить распределение данных и выявить выбросы, которые могут быть признаками аномалий. Диаграммы рассеяния, в свою очередь, позволяют проанализировать взаимосвязи между различными переменными и выявить потенциальные закономерности.

Кроме того, можно использовать статистические методы, такие как тесты на нормальность и тесты на наличие выбросов. Тесты на нормальность, такие как тест Шапиро-Уилка или тест Андерсона-Дарлинга, позволяют проверить, соответствует ли распределение данных нормальному закону. Тесты на наличие выбросов, такие как тест Граббса или тест Диксона, позволяют выявить значения, которые существенно отличаются от остальных данных.

При работе с данными в формате Excel или CSV можно использовать функции и формулы для расчета сводных статистических показателей и выявления аномалий. Например, можно использовать функцию СРЗНАЧ для расчета среднего значения, функцию МЕДИАНА для расчета медианы, и функцию СТАНДОТКЛ для расчета стандартного отклонения.

В ChatGPT можно использовать команды, такие как describe или summary, для получения сводных статистических показателей о данных. Кроме того, можно использовать команды, такие как boxplot или scatterplot, для визуализации данных и выявления аномалий.

Построение графиков: гистограммы, scatter, тренды

После загрузки данных в ChatGPT (Excel или CSV) вы можете сразу переходить к визуализации. Модель поддерживает генерацию кода на Python с библиотеками matplotlib и seaborn, а также построение графиков прямо в чате. Для этого не нужно устанавливать софт - все вычисления выполняются на стороне OpenAI.

Гистограмма (распределение)

Чтобы увидеть, как распределены числовые значения в колонке, дайте команду: «Построй гистограмму для столбца "Возраст"». ChatGPT автоматически подберет количество бинов (столбцов) и подпишет оси. Если нужно настроить детализацию, уточните: «Сделай 20 бинов, добавь сетку и подпиши ось X как "Возраст (годы)"». Для сравнения двух распределений на одном графике используйте: «Построй две гистограммы с прозрачностью 0.5 для колонок "Зарплата" и "Бонус" на одном полотне».

Scatter plot (диаграмма рассеяния)

Scatter помогает выявить взаимосвязь между двумя числовыми переменными. Пример запроса: «Построй scatter plot: по оси X - "Рекламный бюджет", по оси Y - "Продажи"». ChatGPT добавит точки и линию регрессии, если вы попросите: «Добавь линию тренда (LOESS) и коэффициент корреляции Пирсона в угол графика». Для цветовой кодировки по категориям укажите: «Окрась точки по столбцу "Регион", добавь легенду».

Тренды и временные ряды

Если данные содержат даты, ChatGPT построит линейный график с трендом. Запрос: «Построй временной ряд: по X - "Дата", по Y - "Выручка". Добавь скользящее среднее с окном 7 дней». Модель сама преобразует строки в datetime, если это необходимо. Для множественных линий: «На одном графике покажи тренды по "Выручке" и "Расходам" за 2023 год, подпиши каждую линию».

Кастомизация и экспорт

Вы можете управлять стилем: «Сделай график в стиле "whitegrid" seaborn, размер 10x6 дюймов, шрифт 12». После построения ChatGPT предложит скачать изображение в PNG или PDF. Если нужно сохранить данные для отчета, попросите: «Выведи код Python, который сгенерировал этот график». Это позволит воспроизвести визуализацию локально.

Ограничения

ChatGPT не строит 3D-графики и сложные анимации. Для интерактивных дашбордов (plotly) потребуется явный запрос: «Сделай интерактивный scatter с подсказками при наведении». Модель также может ошибаться в подборе типа графика - если scatter выглядит как «лапша» из тысяч точек, попросите уменьшить прозрачность (alpha=0.3) или применить jitter.

Практический пример

Допустим, у вас CSV с колонками: date, revenue, marketing_spend, region. Запрос: «Построй 3 графика рядом: 1) гистограмма revenue, 2) scatter marketing_spend vs revenue с цветом по region, 3) временной ряд revenue с трендом. Размести их в одной строке». ChatGPT сгенерирует subplot-композицию за 10 секунд.

Главное правило: чем точнее запрос, тем качественнее график. Указывайте названия колонок в кавычках, тип графика и желаемые параметры. Модель не умеет «угадывать» - она выполняет инструкции.

Фильтрация и трансформация данных через естественный язык

ChatGPT позволяет управлять данными без написания сложных формул или кода. Вам достаточно описать задачу своими словами, и модель выполнит фильтрацию, сортировку, создание новых столбцов или агрегацию.

Как это работает. После загрузки файла (Excel или CSV) ChatGPT анализирует структуру таблицы: названия столбцов, типы данных, первые строки. Вы даете команду на естественном языке, а модель генерирует код Python (обычно с библиотекой pandas) и выполняет его в фоновом режиме. Результат отображается в виде обновленной таблицы или нового файла для скачивания.

Примеры фильтрации. Самый частый запрос - отбор строк по условию. Например: «Оставь только строки, где сумма продаж больше 1000» или «Покажи заказы за 2024 год». ChatGPT сам определит столбец с датами и выполнит фильтр. Если нужно несколько условий: «Отфильтруй клиентов из Москвы и Санкт-Петербурга с суммой заказа от 5000». Модель корректно обработает логическое «И» и «ИЛИ».

Сортировка. Просто скажите: «Отсортируй по убыванию цены» или «Сначала самые старые записи». ChatGPT применит сортировку к нужному столбцу.

Трансформация данных. Это создание новых столбцов на основе существующих. Примеры запросов:

  • «Добавь столбец с прибылью как разница между ценой и себестоимостью».
  • «Раздели ФИО на три отдельных столбца: фамилия, имя, отчество».
  • «Переведи все даты в формат ДД.ММ.ГГГГ».
  • «Объедини столбцы "Город" и "Улица" в один адрес через запятую».

Агрегация и группировка. ChatGPT легко сводит данные: «Сгруппируй по категории товара и посчитай среднюю цену» или «Покажи общую выручку по месяцам». Результат - новая таблица с итогами.

Очистка данных. Модель справляется с типовыми проблемами: «Удали строки с пустыми ячейками в столбце "Email"», «Замени все пропуски в цене на 0», «Убери дубликаты по номеру заказа».

Важные ограничения. ChatGPT не видит весь файл целиком, если он большой (более 100 МБ). Для больших данных лучше загружать выборку или использовать режим Advanced Data Analysis (если доступен). Также модель может ошибиться в названиях столбцов, если они нечитаемые (например, «Col1», «Col2»). В таком случае сначала попросите: «Переименуй столбцы: Col1 в "Дата", Col2 в "Сумма"».

Как проверить результат. После выполнения запроса ChatGPT покажет первые строки измененной таблицы. Если что-то не так, уточните: «Ты отфильтровал не те строки, попробуй условие "больше или равно 100"». Модель исправит ошибку.

Практический совет. Формулируйте запрос максимально конкретно. Вместо «Почисти данные» напишите «Удали строки, где возраст меньше 18 или отсутствует». Чем точнее команда, тем выше качество результата.

Фильтрация и трансформация через естественный язык сокращает время на рутинные операции в 5-10 раз. Вы перестаете зависеть от знания Excel или SQL и сосредотачиваетесь на анализе, а не на технической возне с данными.

Слияние нескольких таблиц: VPR средствами ChatGPT

Для слияния нескольких таблиц в ChatGPT можно использовать функцию VLOOKUP или INDEX/MATCH, но также есть возможность использовать более простой и интуитивный способ с помощью команды ChatGPT.

Для начала необходимо подготовить таблицы, которые будут сливаться. Например, у нас есть две таблицы: одна содержит информацию о сотрудниках, а другая - информацию о их отделах.

Таблица 1: Сотрудники

ID ФИО Отдел
1 Иванов Иван 1
2 Петров Петр 2
3 Сидоров Сидор 1

Таблица 2: Отделы

ID Название
1 Отдел 1
2 Отдел 2

Чтобы слить эти таблицы, необходимо использовать команду ChatGPT. Для этого необходимо сформулировать запрос, в котором указать, какие таблицы необходимо слить, и по какому ключу производить слияние.

Например, чтобы слить таблицы по столбцу "Отдел" и получить полное название отдела, можно использовать следующий запрос: "Слийте таблицы по столбцу 'Отдел' и добавьте столбец 'Название отдела' из таблицы 'Отделы' в таблицу 'Сотрудники'".

После выполнения этой команды ChatGPT слиет таблицы и добавит новый столбец "Название отдела" в таблицу "Сотрудники".

Результат:

ID ФИО Отдел Название отдела
1 Иванов Иван 1 Отдел 1
2 Петров Петр 2 Отдел 2
3 Сидоров Сидор 1 Отдел 1

Таким образом, с помощью ChatGPT можно легко и быстро слить несколько таблиц и получить необходимую информацию. Это особенно полезно, когда необходимо работать с большими объемами данных и сложными запросами.

Экспорт результатов: скачать обработанный CSV и Python-скрипт

После того как ChatGPT выполнил очистку данных, агрегацию или построил графики, вам нужно забрать результат. ChatGPT не имеет кнопки «Скачать файл», но он может сгенерировать два полезных артефакта: готовый CSV-файл в виде текста и Python-скрипт, который воспроизводит все ваши действия.

Как получить CSV

Попросите ChatGPT прямо: «Выдай итоговую таблицу в формате CSV». Модель выведет данные в виде текста, где строки разделены переводами строк, а столбцы - запятыми. Скопируйте этот текст в блокнот и сохраните с расширением .csv. Если в данных есть запятые внутри ячеек, ChatGPT должен обернуть их в кавычки. Проверьте это: если кавычек нет, попросите «Оберни все поля в двойные кавычки».

Для больших таблиц (более 50 строк) ChatGPT может обрезать вывод. В этом случае запросите: «Выдай первые 10 строк для примера, а затем полный CSV в виде текстового файла, разбитого на части по 100 строк». Склейте части вручную, удалив заголовки из повторений. Альтернатива: попросите сгенерировать Python-скрипт, который сохраняет DataFrame в CSV, и запустите его локально.

Как получить Python-скрипт

Самый надежный способ экспорта - попросить ChatGPT написать скрипт, который загружает исходный файл, применяет все сделанные преобразования и сохраняет результат. Скажите: «Напиши Python-скрипт, который делает то же самое: читает файл data.csv, удаляет пропуски, группирует по столбцу "Город", считает среднюю сумму, строит столбчатую диаграмму и сохраняет итоговую таблицу в cleaned_data.csv». ChatGPT выдаст готовый код с импортами pandas, matplotlib и openpyxl.

Скопируйте код в файл с расширением .py. Убедитесь, что в первой строке указан путь к вашему исходному файлу. Если ChatGPT использовал абсолютный путь (например, /content/data.csv), замените его на относительный (data.csv) или полный путь к вашему файлу. Запустите скрипт в любой среде: терминал, Jupyter Notebook, Google Colab. На выходе получите CSV и PNG-файл с графиком.

Практические советы

  • Если вы работали с Excel (несколько листов), явно укажите ChatGPT: «Скрипт должен читать лист "Продажи" из файла report.xlsx».
  • Для графиков попросите добавить в скрипт plt.savefig('chart.png', dpi=300) перед plt.show().
  • Если ChatGPT использовал библиотеки, которых у вас нет (например, seaborn), попросите заменить на matplotlib или pandas.
  • Всегда просите добавить обработку ошибок: try-except для чтения файла и проверку существования столбцов.

Когда нужен только CSV

Если вам не нужен скрипт, а только финальные данные, попросите: «Выдай таблицу в формате Markdown, а затем в формате CSV». Markdown удобен для вставки в документацию, CSV - для загрузки в Excel. Проверьте, что ChatGPT не потерял строки: сравните количество строк в исходных данных и в выводе.

Итог

Экспорт через ChatGPT - это два шага: скопировать текст CSV или скопировать код. Второй вариант предпочтительнее, если вы планируете повторять анализ или обрабатывать похожие файлы. Скрипт можно адаптировать под новые данные, просто изменив имя файла. Никогда не доверяйте выводу ChatGPT на 100%: проверьте итоговый CSV на наличие артефактов (лишние запятые, пропущенные строки) и запустите скрипт на тестовом файле перед использованием.

Ограничения и типичные ошибки при анализе больших файлов

ChatGPT не предназначен для обработки файлов, размер которых превышает десятки мегабайт. Даже если файл формально загружается, модель может «забыть» часть данных или выдать некорректные результаты. Основное ограничение - контекстное окно: ChatGPT одновременно «видит» только ограниченный объём информации. Если ваш Excel или CSV содержит 100 000 строк, модель обработает лишь первые несколько тысяч, а остальные проигнорирует. Это приводит к ошибкам в расчётах средних, сумм и других агрегатов.

Типичная ошибка - попытка загрузить файл с миллионом строк и попросить «посчитать статистику по всем данным». ChatGPT либо зависнет, либо выдаст результат только по начальному фрагменту. Решение: перед загрузкой уменьшите объём данных. Удалите лишние столбцы, оставьте только нужные строки, используйте фильтры в Excel или скрипты для агрегации. Например, если нужно проанализировать продажи за год, сгруппируйте данные по месяцам или неделям заранее.

Вторая распространённая ошибка - работа с файлами, содержащими неструктурированный текст или бинарные данные. ChatGPT плохо парсит сложные форматы: вложенные таблицы, объединённые ячейки, макросы, изображения внутри Excel. Если файл содержит такие элементы, модель может прочитать только часть информации или интерпретировать её неверно. Перед загрузкой преобразуйте данные в простую таблицу: один лист, без объединений, все значения в отдельных ячейках. CSV-формат с разделителями-запятыми - самый надёжный вариант.

Третья проблема - игнорирование типов данных. ChatGPT может спутать числа, записанные как текст, с фактическими числами. Например, столбец с ценами, где используется запятая как десятичный разделитель (12,5 вместо 12.5), модель воспримет как строку. В результате графики не построятся, а суммы окажутся нулевыми. Всегда проверяйте формат данных перед загрузкой: замените запятые на точки, убедитесь, что даты записаны в едином формате (ГГГГ-ММ-ДД), а пустые ячейки явно обозначены (например, «0» или «NA»).

Четвёртая ошибка - запросы на построение сложных графиков без указания осей и типов данных. ChatGPT может нарисовать диаграмму, но если не уточнить, какие столбцы отвечают за X и Y, результат будет случайным. Всегда формулируйте запрос чётко: «Построй столбчатую диаграмму, где по оси X - столбец "Месяц", по оси Y - столбец "Продажи"». Если данных много, график может не поместиться в ответе - запрашивайте только ключевые визуализации.

Пятая ошибка - перегрузка модели одним запросом. Не просите одновременно «посчитать среднее, медиану, построить три графика, найти выбросы и сделать прогноз». ChatGPT начнёт выполнять задачи последовательно, но к концу может потерять нить или выдать неполный ответ. Разбивайте анализ на шаги: сначала загрузите данные и попросите базовую статистику, затем - один график, потом - дополнительные расчёты.

Наконец, помните о конфиденциальности. Не загружайте в ChatGPT файлы с персональными данными, паролями или коммерческой тайной. Модель обрабатывает информацию на серверах OpenAI, и данные могут использоваться для обучения. Если анализ критичен, используйте локальные инструменты (Python, R, Excel) или корпоративные версии ChatGPT с гарантией приватности.

Чтобы избежать ошибок, всегда проверяйте результаты: сравнивайте суммы и средние с исходными данными в Excel. Если ChatGPT выдаёт странные цифры - скорее всего, файл слишком велик или содержит нечитаемые элементы. Уменьшите объём, очистите формат и повторите запрос.

Частые вопросы

Какой максимальный размер файла можно загрузить?

Максимальный размер файла, который можно загрузить, составляет 50 мегабайт. Этот размер подходит для большинства таблиц и наборов данных. Если ваш файл больше, его необходимо разбить на более мелкие части или использовать другие методы для его обработки. Это ограничение обеспечивает стабильную работу инструмента.

ChatGPT видит мой файл или просто запускает код?

ChatGPT не имеет прямого доступа к вашим файлам, он запускает код на основе ваших инструкций. Это означает, что вы должны предоставить данные или код в текстовом формате, чтобы ChatGPT мог их обработать. Таким образом, вы сохраняете контроль над своими данными и определяете, что именно будет обработано.

Как сохранить написанный ChatGPT Python-код?

Чтобы сохранить написанный Python-код, скопируйте его и вставьте в текстовый редактор или IDE, например, PyCharm или Visual Studio Code. Затем сохраните файл с расширением .py. Также можно использовать онлайн-редакторы кода, которые позволяют сохранять и загружать файлы. Это позволит вам использовать код в будущем и продолжить работу над проектом.

Работает ли Code Interpreter в бесплатной версии?

Code Interpreter доступен только в платной версии. Для работы с данными в бесплатной версии необходимо использовать другие методы. Однако ChatGPT может помочь с некоторыми задачами по обработке и анализу данных без использования Code Interpreter. Это может включать выполнение простых вычислений и предоставление советов по работе с данными.

Что дальше

Следующий шаг в учебном плане: DALL-E 3 в ChatGPT: создаём изображения, иконки и баннеры.

Разборы свежих AI-новостей - в канале AI Компас.

Больше гайдов - ai-uchebnik.ru/uchebnik.