Формирование групп идентичных объектов

Обложка

Цитировать

Полный текст

Открытый доступ Открытый доступ
Доступ закрыт Доступ предоставлен
Доступ закрыт Доступ платный или только для подписчиков

Аннотация

Рассматривается подход к повышению согласованности структуры. Цель исследования заключается в выборе метода объединения идентичных объектов в группы, поскольку именно идентичные объекты могут эффективно обмениваться информацией и использовать информацию, полученную в результате этого обмена. Для достижения поставленной цели был проведен ряд экспериментов с различными методами, после чего был выбран лучший с точки зрения целевой меры качества и скорости работы. Предлагаемый подход позволяет учитывать различные характеристики объектов и связи между ними, что обеспечивает точное определение идентичных объектов, а также имеет эффективную реализацию для распределенных вычислительных систем, что делает его быстрым даже на больших объемах данных. Сравнение рассматриваемых подходов произведено на примере задачи поиска идентичных изделий для управления ассортиментом и поставками.

Полный текст

Доступ закрыт

Об авторах

И. Ф. Антипов

Волгоградский государственный университет

Автор, ответственный за переписку.
Email: antipov.ivan.f@gmail.com
Россия, Волгоград

С. К. Дулин

Российский университет транспорта (МИИТ)

Email: skdulin@mail.ru
Россия, Москва

А. Б. Рябцев

ФИЦ ИУ РАН; Московский физико-технический институт

Email: ryabtsev.ab@phystech.edu
Россия, Москва; Москва

Список литературы

  1. Creps R., Polzer H., Yanosy J. Systems, capabilities, operations, programs, and enterprises (SCOPE). Model for interoperability assessment // NetworkCentric Operations Industry Consortium, 2008. P. 154.
  2. GOST R 55062-2012. Information Technology (IT). Industrial Automation Systems and Their Integration. Interoperability. Basic Provisions // Standartinform. 2014. P. 12.
  3. Baas J., Dastani M., Feelders J. Exploiting Transitivity for Entity Matching // The Semantic Web: ESWC Satellite Events: Virtual Event. Revised Selected Papers 18. Cham: Springer International Publishing, 2021. P. 109–114.
  4. Dulin S.K. Introduction to the Theory of Structural Coherence. M.: Computing Center of the Russian Academy of Sciences, 2005. P. 135.
  5. Rosenberg I.N., Dulin S.K., Dulina N.G. Modeling the Structure of Interoperability by Means of Structural Consistency // Computer Science and its Applications. 2023. V. 17. P. 57–65.
  6. Papadakis G., Svirsky J., Gal A. et al. Comparative Analysis of Approximate Blocking Techniques for Entity Resolution // Proc. VLDB Endowment. 2016. V. 9. P. 684–695.
  7. Miao Z., Li Y., Wang X. Rotom: A meta-learned data augmentation framework for entity matching, data cleaning, text classification, and beyond // Proc. Intern. Conf. on Management of Data. Xi’an. 2021. P. 1303–1316.
  8. Thirumuruganathan S., Li. H, Tang N. et al. Deep Learning for Blocking in Entity Matching: a Design Space Exploration // Proc. VLDB Endowment. 2021. V. 14. P. 2459–2472.
  9. Dulin S.K., Ryabtsev A.B. Algorithm for Improving the Consistency of Structural Interoperability. Dependability, 2024. P. 8–15.
  10. Zhu X., Zoubin G. Learning from labeled and unlabeled data with label propagation // Tech. Rep., Technical Report CMU-CALD-02–107. Carnegie Mellon University, 2002. https://mlg.eng.cam.ac.uk/zoubin/papers/CMUCALD-02-107.pdf https://github.com/graphframes/graphframes
  11. Kaufman L., Rousseeuw P.J. Finding groups in data: an introduction to cluster analysis. John Wiley & Sons, 2009.
  12. Rosenberg A., Hirschberg J. V-Measure: a conditional entropy-based external cluster evaluation measure, 2007.
  13. Fowkles E., Mallows C. A method for comparing two hierarchical clusterings // J. American Statistical Association. 1983. V. 78. P. 553–569.
  14. Rand W. Objective criteria for the evaluation of clustering methods // J. American Statistical Association. 1971. V. 66. P. 846–850.
  15. Hubert L., Arabie P. Comparing partitions // J. Classification. 1985. V. 2. P. 193–218.

Дополнительные файлы

Доп. файлы
Действие
1. JATS XML
2. Рис. 1. Подход на основе транзитивного замыкания.

Скачать (106KB)
3. Рис. 2. Три группы идентичных товаров, ошибочно соединенных между собой малым числом ребер.

Скачать (155KB)
4. Рис. 3. Распределение размеров групп.

Скачать (134KB)

© Российская академия наук, 2025