Датасет слов английского языка

Обнаружил, что у Оксфордского университета есть списки распространенных слов и выражений английского языка. Доступны в традиционно «удобном» формате — html-амбразуре на сайте либо PDF.

Извлек их и сделал нормальные наборы данных в CSV. Например:

word level pos definition_url voice_url
abandon b2 verb 📄 🗣️
ability a2 noun 📄 🗣️
able a2 adjective 📄 🗣️
abolish c1 verb 📄 🗣️
и еще 5000 слов…

Атрибутика:

  • word — слово
  • pos — часть речи
  • level — уровень (A1, A2, B1, B2, C1)
  • definition_url — ссылка на подробное определение
  • voice_url — ссылка на озвучку в ogg

Посмотреть и скачать:
github.com/nalgeon/words

Заметка из телеграм-канала «SQLite на практике»