Разработка системы лингвистических маркеров для автоматизированной выгрузки тематических текстовых данных из социальной сети

Разработка системы лингвистических маркеров для автоматизированной выгрузки тематических текстовых данных из социальной сети

Авторы

Ключевые слова:

Лингвистический маркер, большие данные, автоматизированный сбор данных, выгрузка данных, текстовая коллекция, полнотекстовый поиск, социальные сети, «ВКонтакте», ткрытый API, акцинация, COVID-19

Аннотация

Автоматизированный поиск и отбор текстов по определенной теме в целевом источнике для формирования репрезентативной тематической текстовой коллекции (текстового датасета) большой размерности, будучи частным случаем получения и структурирования первичных данных, остается одной из наиболее востребованных прикладных
задач обработки естественного языка. В статье представлен опыт разработки системы лингвистических маркеров, позволяющей извлекать автоматизированными методами тексты, связанные с тематикой вакцинации от COVID-19,
на материале социальной сети «ВКонтакте». Для формирования итогового датасета использовалась комбинация лингвистических методов с методами сбора и обработки текстовых данных. Тестовый список маркеров сформирован на основе фоновых знаний, работы со словарями и специальными лингвистическими сервисами. Ставилась задача сформировать список слов, объединенных общим концептуальным признаком, спрогнозировать совместную встречаемость слов в текстах о вакцинации от COVID-19 или найти специфичные слова, маркирующие данную тему: окказионализмы, обозначения специфичных реалий. Контент выгруженных с помощью тестового списка маркеров тематических сообществ в сети «ВКонтакте» стал источником автоматизированного и экспертного извлечения основного массива маркеров (354 единицы). Подробно описана процедура автоматизированной фильтрации промежуточной текстовой выборки (12,8 млн текстов); приведена методика формирования стоп-слов. За период с 01.01.2020 по 01.03.2023 извлечено 4,5 млн релевантных сообщений; валидность маркеров подтвердилась незначительным в масштабе больших данных количеством шума. Систематизированы общие принципы подготовки лингвистических маркеров для автоматизированной выгрузки больших текстовых данных; отмечены сильные и слабые стороны данного инструмента; предложены рекомендации по формированию списка лингвистических маркеров.

Биографии авторов

Саркисова Анна Юрьевна, МГУ имени М.В. Ломоносова

Кандидат филологических наук, доцент, научный сотрудник, факультет государственного управления, МГУ имени М.В. Ломоносова, Москва, РФ.

SPIN-код РИНЦ: 1212-0879

sarkisova@data.tsu.ru

Петров Евгений Юрьевич, Национальный исследовательский Томский государственный университет

Техник, суперкомпьютерный центр, Национальный исследовательский Томский государственный университет,
Томск, РФ.

SPIN-код РИНЦ: 6469-0644

petrov@data.tsu.ru

Дунаева Дарья Олеговна, МГУ имени М.В. Ломоносова

Научный сотрудник, факультет государственного управления, МГУ имени М.В. Ломоносова, Москва, РФ.

SPIN-код РИНЦ: 7164-7368

ddo@data.tsu.ru

Библиографические ссылки

Горностаева Ю.А. Опыт выявления вербальных маркеров психологических и когнитивных процессов в лингвистике: к истории вопроса // Филологические науки. Вопросы теории и практики. 2018. № 8(86). Ч. 1. С. 91–94. DOI: 10.30853/filnauki.2018-8-1.21

Карпова А.Ю., Савельев А.О., Вильнин А.Д., Чайковский Д.В. Изучение процесса онлайн-радикализации молодежи в социальных медиа (междисциплинарный подход) // Мониторинг общественного мнения: экономические и социальные перемены. 2020. № 3. С.159–181. DOI: 10.14515/monitoring.2020.3.1585

Колмогорова А.В., Талдыкина Ю.А., Калинин А.А. Языковые маркеры манипуляции в поляризованном политическом дискурсе: опыт параметризации // Политическая лингвистика. 2016. № 4(58). С. 194–199.

Колмогорова А.В., Калинин А.А., Маликова А.В. Типология и комбинаторика вербальных маркеров различных эмоциональных тональностей в интернет-текстах на русском языке // Вестник Томского государственного университета. 2019. № 448. С. 48–58. DOI: 10.17223/15617793/448/6

Концевой M.P. Онлайновые семантические вычисления на платформе RusVectōrēs в преподавании компьютерной лингвистики// Дистанционное обучение — образовательная среда XXI века: материалы XII Международной научно-методической конференции, Минск, 26 мая 2022 г. Минск: БГУИР, 2022. C. 75.

Мишланов В.А., Каджая Л.А., Кузнецова Ю.М. Лингвистические маркеры эмоционального состояния субъекта речи (к проблеме автоматического мониторинга текстов сетевой коммуникации) // Медиалингвистика. 2020. Т. 7. № 4. С. 428–444. DOI: 10.21638/spbu22.2020.405

Петров Е.Ю., Саркисова А.Ю. Ресурс аналитической платформы PolyAnalyst в социогуманитарных научных исследованиях // Открытые данные — 2021: материалы форума / под ред. А.Ю. Саркисовой. Томск: Издательство Томского государственного университета, 2021. С. 94–104.

Сбоев А.Г., Гудовских Д.В., Молошников И.А., Кукин К.А., Рыбка Р.Б., Иванов И.И., Власов Д.С. Автоматическое выделение психолингвистических характеристик текстов в рамках концепции Big Data // Современные информационные технологии и IT-образование. 2013. № 9. С. 433–438.

Ahmad S., Asghar M.Z., Alotaibi F.M., Awan I. Detection and Classification of Social Media-Based Extremist Affiliations Using Sentiment Analysis Techniques // Human-centric Computing and Information Sciences. 2019. Vol. 9. DOI: 10.1186/s13673-019-0185-6

Cohen K., Johansson F., Kaati L., Clausen Mork J.C. Detecting Linguistic Markers for Radical Violence in Social Media // Terrorism and Political Violence. 2014. Vol. 26. Is. 1. P. 246–256. DOI: 10.1080/09546553.2014.849948

Deng W., Hsu J.-H., Löfgren K., Cho W. Who Is Leading China’s Family Planning Policy Discourse in Weibo? A Social Media Text Mining Analysis // Policy & Internet. 2021. Vol. 13. Is. 4. P. 485–501. DOI: 10.1002/poi3.264

Erseghe T., Badia L., Dzanko L., Suitner C. PLMP: A Method to Map the Linguistic Markers of the Social Discourse onto Its Semantic Network // 2022 IEEE / ACM International Conference on Advances in Social Networks Analysis and Mining (ASONAM). November 10–13, 2022, Istanbul, Turkey. Istanbul: Institute of Electrical and Electronics Engineers, 2022. P. 247–251. DOI: 10.1109/ASONAM55673.2022.10068643

Huang F., Ding H., Liu Z., Wu P., Zhu M., Li A., Zhu T. How Fear and Collectivism Influence Public’s Preventive Intention towards COVID-19 Infection: A Study Based on Big Data from the Social Media // BMC Public Health. 2020. Vol. 20. DOI: 10.1186/s12889-020-09674-6

Huh J-H. Big Data Analysis for Personalized Health Activities: Machine Learning Processing for Automatic Keyword Extraction Approach // Symmetry. 2018. Vol. 10. Is. 4. DOI: 10.3390/sym10040093

Kessel R. van, Kyriopoulos I., Wong B.L.H., Mossialos E. The Effect of the COVID-19 Pandemic on Digital Health–Seeking Behavior: Big Data Interrupted Time-Series Analysis of Google Trends // Journal of Medical Internet Research. 2023. Vol. 25. DOI: 10.2196/42401

Liu T., Giorgi S., Yadeta K., Schwarts H.A., Ungar L.H., Curtis B. Linguistic Predictors from Facebook Postings of Substance Use Disorder Treatment Retention versus Discontinuation // The American Journal of Drug and Alcohol Abuse Encompassing. 2022. Vol. 48. Is. 5. P. 573–585. DOI: 10.1080/00952990.2022.2091450

Shchekotin E.V., Goiko V.L., Myagkov M.G., Dunaeva D.O. Assessment of Quality of Life in Regions of Russia Based on Social Media Data // Journal of Eurasian Studies. 2021. Vol. 12. № 2. DOI: 10.1177/18793665211034185

Загрузки

Опубликован

30.10.2023

Как цитировать

Разработка системы лингвистических маркеров для автоматизированной выгрузки тематических текстовых данных из социальной сети. (2023). Государственное управление. Электронный вестник, 97, 70-84. https://doi.org/10.24412/6ne3kx55

Выпуск

Раздел

Научные статьи

Категории

Как цитировать

Разработка системы лингвистических маркеров для автоматизированной выгрузки тематических текстовых данных из социальной сети. (2023). Государственное управление. Электронный вестник, 97, 70-84. https://doi.org/10.24412/6ne3kx55

Наиболее читаемые статьи этого автора (авторов)

<< < 1 2 3 4 5 6 7 8 9 10 > >> 

Похожие статьи

1-10 из 165

Вы также можете начать расширеннвй поиск похожих статей для этой статьи.

Loading...