Датасет слов английского языка

Обнаружил, что у Оксфордского университета есть списки распространенных слов и выражений английского языка. Доступны в традиционно «удобном» формате — html-амбразуре на сайте либо PDF.

Извлек их и сделал нормальные наборы данных в CSV. Например:

wordlevelposdefinition_urlvoice_url
abandonb2verb📄🗣️
abilitya2noun📄🗣️
ablea2adjective📄🗣️
abolishc1verb📄🗣️
и еще 5000 слов...

Атрибутика:

  • word — слово
  • pos — часть речи
  • level — уровень (A1, A2, B1, B2, C1)
  • definition_url — ссылка на подробное определение
  • voice_url — ссылка на озвучку в ogg

Посмотреть и скачать:
github.com/nalgeon/words

Подписывайтесь на канал, чтобы не пропустить новые заметки 🚀