Анализ возможности применения различных лингвистических характеристик для идентификации автора анонимных коротких сообщений в глобальной сети Интернет

Воробьева А. А.

Читать статью полностью

  Анализ возможности применения различных лингвистических характеристик для идентификации автора анонимных коротких сообщений в глобальной сети Интернет(2,21 MB)

Аннотация

Большинство исследований по идентификации автора сосредоточены на текстах больших объемов. В Интернете, в основном, используются достаточно короткие сообщения. Для проведения данного исследования использовались реальные записи блогов нескольких известных авторов, средняя длина текста которых составляет около 2700 символов. В работе производится анализ возможности применения различных характеристик текста и методов классификации для идентификации авторов коротких сообщений в Интернете. Анализируется точность идентификации при использовании различных видов лингвистических характеристик: лексические, синтаксические и структурные. Производится анализ возможности применения различных методов классификации для автоматизации процесса идентификации автора сообщения.

Ключевые слова:

идентификация анонимных пользователей, дистрибуция текстов, авторство сообщений, компьютерная лингвистика, информационная безопасность

Список литературы

1. Бессонова Е. Е., Зикратов И. А., Росков В. Ю.Анализ способов идентификации пользователя в сети Интернет//Научно-технический вестник информационных технологий, механики и оптики – 2012. – Вып. 6. – С. 128–129.

2. Abbasi,A., Chen, Н:.Applying Authorship Analysis to Extremist-group Web Forum Messages. IEEE Intelligent Systems, 20(5), 67–75 (2005)

3. Park T., Li, J., Zhao, H., Chau, M.Analyzing writing styles of bloggers with different opinions, Proceedings of the 19th Annual Workshop on Information Technologies and Systems (WITS 2009). – Phoenix, Arizona, USA: [б.н.], 2009.

4. R. Layton P. Watters, andR. Dazeley.Authorship attribution for twitter in 140 characters or less. - In Second Cybercrime and Trustworthy Computing Workshop, CTC 2010, pages 1–8, Ballart, VIC, Australia, July., 2010 r.

5. O. de Vel A. Anderson, M. Corney, G. Mohay.Mining e-mail content for author identification forensics.. – [б.м.]: SIGMOD Rec., 2001 r.. – T. 30(4), p. 55–64.

6. Forsyth R. Holmes, D.Feature-finding for text classification: Literary and Linguistic Computing , 1996 r.. – 4, p. 163–174: T. 11.

7. Stamatatos E.A Survey of Modern Authorship Attribution Methods Journal of the American Society for Information Science and Technology, 60(3), pp. 538-556,2009, Wiley.

8. ЛапшинC.B.,ЛебедевИ.С.МЕТОД ПОВЫШЕНИЯ ТОЧНОСТИ АВТОМАТИЧЕСКОГО ОПРЕДЕЛЕНИЯ ЧАСТЕЙ РЕЧИ СЛОВ ПРЕДЛОЖЕНИЯ В МОРФОЛОГИЧЕСКИХ АНАЛИЗА TOPAXDLP-СИСТЕМ//Научно-технический вестник информационных технологий, механики и оптики – 2013. – Вып. 4. – С. 124–128.