Применение алгоритмов кластеризации для решения задач криминалистического исследования документов и их реквизитов
Аннотация
В статье описаны принцип работы и пределы использования метода кластеризации для решения отдельных задач криминалистического исследования документов. На примере исследования рукописных реквизитов документов рассмотрен порядок применения метода кластеризации для установления исполнителя краткой рукописной записи, а также исключения из числа возможных исполнителей рукописной записи по имеющимся образцам почерка. По результатам проведенных исследований высказаны предложения, направленные на расширение возможностей использования метода кластеризации при исследовании реквизитов документов.
Ключевые слова
Тип | Статья |
Издание | Эксперт-криминалист № 01/2025 |
Страницы | 5-8 |
DOI | 10.18572/2072-442X-2025-1-5-8 |
В настоящее время для работы с объектами судебных экспертиз все чаще применяются методы, в основу которых заложены алгоритмы математической обработки данных с помощью машинного обучения, одним из которых является кластеризация. Термин «кластеризация» (clustering) ввел американский психолог и статистик Роберт Трайон в 1939 г. Он использовал этот термин для описания метода группировки объектов по сходству их характеристик.
В 1950–1960-е годы развитие методов кластерного анализа продвинулось дальше благодаря работам статистиков, математиков и специалистов в области машинного обучения, использующих эту концепцию. Например, Джон Тьюки ввел понятие иерархической кластеризации, позволяющей строить дерево кластеров на основе сходства данных. Одной из наиболее известных является его работа «Exploratory Data Analysis» («Исследовательский анализ данных»), в которой рассмотрены и использованы методы кластеризации. Тьюки представил концепцию иерархической кластеризации и показал, как это помогает визуализировать структуру данных и выявлять закономерности, а также аномалии и необычные паттерны, не свойственные для исследуемых объектов.
С появлением электронных вычислительных машин (ЭВМ) кластерный анализ стал использоваться более широко благодаря возросшей вычислительной мощности при обработке данных. Одним из пионеров применения кластерного анализа с использованием возможностей ЭВМ был Джон Ланкастер, британский статистик, который впервые описал метод k-средних в 1967 г. В дальнейшем этот метод стал популярен, для работы с ним широко используются компьютерные программы, написанные с целью повышения скорости выполнения операций по обработке собранных данных.
На протяжении всего развития основной целью кластеризации было разделение набора данных на группы (кластеры) таким образом, чтобы объекты внутри одного кластера были максимально похожи друг на друга, а объекты из разных кластеров отличались.
Из множества алгоритмов кластеризации можно выделить следующие, наиболее популярные виды: