В статье представлен первичный анализ данных с использованием Pandas (библиотека Python). С помощью структуры DataFrame рассмотрен файл формата xlsx, в котором содержится обезличенное описание 37609 студентов по 13 признакам: институт, специальность, форма обучения, категория, средний балл, пол, общежитие, семейное положение, медаль, тип школы, лет после школы, страна, город. В качестве целевого признак принят факт окончания. При выполнении всей учебной программы этот признак имеет значение 1, в противном случае он равен 0. Также он может принимать значение от 0 до 100. Первичный анализ данных вы-явил характерные особенности рассматриваемых данных, которые в процессе машинного обучения могут не позволить построить деревья принятия решения не большой глубины, при кластеризации представляется проблемным снизить размерность главных компонент.
Семериков Александр Вениаминович
Организация: Ухтинский государственный технический университет
Должность/статус: кандидат технических наук, доцент кафедры вычислительной техники, информационных систем и технологий
E-mail: leersem@mail.ru
Глазырин Михаил Александрович
Организация: Вятский государственный университет
Должность/статус: старший преподаватель кафедры электроэнергетических систем
E-mail: sem-gla@mail.ru