Один з сучасних підходів до аналізу текстів полягає у візуалізації вживаних слів у вигляді хмари. Це один з методів NLP.
NLP – Natural language processing (найновіша область Data Science яка наразі бурхливо розвивається) а зовсім не нейролінгвістичне програмування як Ви могли подумати.
Хмара слів утворюється наступним чином:
Для отримання хмари використовувалась мова R та пакети tm, SnowballC, wordcloud.
Проблеми застосування алгоритму:
Однак,
тим не менше, результат може дещо сказати
про минулий рік і тексти автора. Алгоритм
працює
для будь-якого автора, але для ілюстративних
цілей були вибрані топ-автори, яких я
знаю особисто або регулярно читаю, і Шрайк.
Алекс Хавр
Результати без фільтрації стоп-слів (щоб оцінити масштаб трагедії)
Результат
з фільтрацією
(більш інформативний)
Найбільш
вживані слова: Время очень лет
Антон Сененко
Найбільш
вживані слова: нан науки украины
Юрій Гудименко
Ну це настільки прекрасно, що картинку можна розглядати увесь 2018 рік.
Семен Єсилевський
Найбільш
вживані слова: просто очень
вообще
Роман
Шрайк
ну тут без коментарів :)
Владимир Завгородний
Найбільш вживані слова: время году
Виктор Трегубов
Найбільш вживані слова: просто очень вообще (те саме, що і Єсилевського, хмммм )
Сашко Лірник
Коментарі доступні тільки зареєстрованим користувачам
вхід / реєстрація