Датасет для анализа русскоязычных отзывов на МООК, извлеченных с платформы Stepik

Ключевые слова: МООК, датасет, частотный анализ униграмм и биграмм, сентиментный анализ, python-библиотека dostoevsky, nltk, pymorphy2


В статье приведен обзор направлений исследований в области анализа образовательных данных на основе методов обработки естественного языка и соответствующих датасетов, из которого, в частности, становится очевиден недостаток датасетов для анализа русскоязычных отзывов на МООК. На основе скрапинга отзывов с платформы Stepik сформирован датасет из 5721 русскоязычного отзыва на МООК по математике, программированию, биологии, химии и физике. Выполнено исследование русскоязычных отзывов из датасета на основе описательной статистики, частотного анализа униграмм и биграмм, сентиментного анализа с помощью python-библиотеки dostoevsky, продемонстрировавшего 74%-ную точность классификации по классам тональности на основе взвешенной метрики F1-score. С помощью анализа униграмм выявлены описательные характеристики курсов с учетом тональности, а анализ биграмм позволил получить описания различных аспектов учебного контента и трудностей, с которыми столкнулись слушатели при изучении МООК. По результатам сентиментного анализа можно судить о преобладании в изучаемом датасете позитивных и нейтральных отзывов на МООК. Датасет размещен в открытом доступе на платформе Mendeley Data и будет полезен специалистам в области анализа текстовых данных и разработки инструментов учебной аналитики.


Данные скачивания пока не доступны.


Дюличева, Юлия. 2022. «Датасет для анализа русскоязычных отзывов на МООК, извлеченных с платформы Stepik». Вопросы образования / Educational Studies Moscow, вып. 4 (декабрь), 298–321. https://doi.org/10.17323/1814-9545-2022-4-298-321.
Базы данных в сфере образования