Мэтчинг товаров на маркетплейсах: мультимодальная модель на основе архитектуры трансформера
Аннотация
В работе рассматривается проблема интеллектуального мэтчинга товаров на маркетплейсах в рамках которого необходимо выполнять оценку схожести различных записей, которые описывают продукты, но могут отличаться по формату, содержанию или объёму мультимодальных данных. Тематика научного поиска находится на пересечении методов решения задач entity resolution (ER) – сопоставления записей и мультимодального анализа данных. Она является крайне актуальной в условиях быстрорастущей платформенной экономики при кратно увеличивающемся объеме рынка электронной коммерции. Основная цель исследования – разработать и протестировать мультимодальную интеллектуальную модель на базе архитектуры трансформера для повышения точности и робастности мэтчинга товаров на маркетплейсах. Разработанная авторами модель, интегрирующая текстовые, визуальные и табличные признаки, позволит эффективнее идентифицировать схожие товары, проводить поиск конкурентных предложений, обнаруживать дубликаты, а также выполнять кластеризацию и сегментацию товаров. Предложенный подход опирается на механизм внимания (self-attention), позволяющий моделировать контекстуально-семантические взаимосвязи в данных различной природы. Для извлечения векторного представления текстовых описаний используются языковые модели, в частности архитектура Sentence-BERT, для графической компоненты Vision Transformer, а табличные данные обрабатываются с применением специализированных механизмов обучения на структурированных данных TabTransformer. Проведенный эксперимент продемонстрировал, что разработанная мультимодальная модель эффективно справляется с задачей мэтчинга в условиях значительной вариативности товарных позиций и неоднородности данных. Кроме того, полученные данные позволяют утверждать, что модель может быть успешно адаптирована для использования в рамках других категорий товаров. Полученные результаты подтверждают эффективность и целесообразность использования мультимодального подхода для реализации мэтчинга товаров на маркетплейсах, позволяя участникам рынка электронной коммерции существенно улучшить качество управления товарными запасами, повысить эффективность ценообразования и укрепить свои конкурентные преимущества.
Скачивания
Литература
Fletcher A., Ormosi P. L., Savani R. (2023) Recommender systems and supplier competition on platforms. Journal of Competition Law & Economics, vol. 19, no. 3, pp. 397–426. https://doi.org/10.1093/joclec/nhad009
Hussien F.T.A., Rahma A.M.S., Abdulwahab H.B. (2021) An e-commerce recommendation system based on dynamic analysis of customer behavior. Sustainability, vol. 13, no. 19, article 10786. https://doi.org/10.3390/su131910786
Chen F., Liu X., Proserpio D. et al. (2020) Studying product competition using representation learning. Proceedings of the 43rd International ACM SIGIR Conference on Research and Development in Information Retrieval (SIGIR ‘20), pp. 1261–1268. https://doi.org/10.1145/3397271.3401041
Hu S., Wei M. M., Cui S. (2023) The role of product and market information in an online marketplace. Production and Operations Management, vol. 32, no. 10, pp. 3100–3118. https://doi.org/10.1111/poms.14025
Cheung M., She J., Sun W., Zhou J. (2019) Detecting online counterfeit-goods seller using connection discovery. ACM Transactions on Multimedia Computing, Communications, and Applications, vol. 15, no. 2, article 35. https://doi.org/10.1145/3311785
Sun J., Zhang X., Zhu Q. (2020) Counterfeiters in online marketplaces: Stealing your sales or sharing your costs. Journal of Retailing, vol. 96, no. 2, pp. 189–202. https://doi.org/10.1016/j.jretai.2019.07.002
Köpcke H., Thor A., Rahm E. (2010) Evaluation of entity resolution approaches on real-world match problems. Proceedings of the VLDB Endowment, vol. 3, nos. 1–2, pp. 484–493. https://doi.org/10.14778/1920841.1920904
Cohen W.W., Ravikumar P., Fienberg S.E. (2003) A Comparison of string distance metrics for name-matching tasks. Proceedings of Workshop on Information Integration (IJCAI-03), pp. 73–78.
Singh R., Meduri V.V., Elmagarmid A., et. al. (2017) Synthesizing entity matching rules by examples. Proceedings of the VLDB Endowment, vol. 11, no. 2, pp. 189–202. https://doi.org/10.14778/3149193.3149199
Wang J., Li G., Yu J.X, Feng J. (2011) Entity matching: How similar is similar. Proceedings of the VLDB Endowment, vol. 4, no. 10, pp. 622–633. https://doi.org/10.14778/2021017.2021020
Angermann H. (2022) TaxoMulti: Rule-based expert system to customize product taxonomies for multi-channel e-commerce. SN Computer Science, vol. 3, article 177. https://doi.org/10.1007/s42979-022-01070-8
Mao M., Chen S., Zhang F. et. al. (2021) Hybrid ecommerce recommendation model incorporating product taxonomy and folksonomy. Knowledge-Based Systems, vol. 214, article 106720. https://doi.org/10.1016/j.knosys.2020.106720
Aanen S. S., Vandic D., Frasincar F. (2015) Automated product taxonomy mapping in an e-commerce environment. Expert Systems with Applications, vol. 42, no. 3, pp. 1298–1313. https://doi.org/10.1016/j.eswa.2014.09.032
Ristoski P., Petrovski P., Mika P., Paulheim H. (2018) A machine learning approach for product matching and categorization: Use case: Enriching product ads with semantic structured data. Semantic Web, vol. 9, no. 5, pp. 707–728. https://doi.org/10.3233/SW-180300
Shah K., Kopru S., Ruvini J. D. (2018) Neural network based extreme classification and similarity models for product matching. Proceedings of the 2018 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, New Orleans – Louisiana, vol. 3, pp. 8–15. Association for Computational Linguistics. https://doi.org/10.18653/v1/N18-3002
Vaswani A., Shazeer N., Parmar N. et. al. (2017) Attention is all you need. Proceedings of the 31st International Conference on Neural Information Processing Systems (NIPS’17), Long Beach, CA, USA, pp. 6000–6010. https://dl.acm.org/doi/pdf/10.5555/3295222.3295349
Zhang H., Shafiq M.O. (2024) Survey of transformers and towards ensemble learning using transformers for natural language processing. Journal of Big Data, vol. 11, article 25. https://doi.org/10.1186/s40537-023-00842-0
Mikolov T., Chen K., Corrado G., Dean J. (2013) Efficient estimation of word representations in vector space. arXiv:1301.3781. https://doi.org/10.48550/arXiv.1301.3781
Pennington J., Socher R., Manning C. D. (2014) GloVe: Global vectors for word representation. Proceedings of the 2014 Conference on Empirical Methods in Natural Language Processing (EMNLP), Doha, Qatar, pp. 1532–1543.
He K., Zhang X., Ren S., Sun J. (2016) Deep residual learning for image recognition. 2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), Las Vegas, NV, USA, pp. 770–778. https://doi.org/10.1109/CVPR.2016.90
Ba J.L., Kiros J.R., Hinton G.E. (2016) Layer normalization. arXiv:1607.06450. https://doi.org/10.48550/arXiv.1607.06450
Devlin J., Chang M. W., Lee K., Toutanova K. (2019) Bert: Pre-training of deep bidirectional transformers for language understanding. Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Minneapolis, Minnesota, vol. 1, pp. 4171–4186. Association for Computational Linguistics. https://doi.org/10.18653/v1/N19-1423
Reimers N., Gurevych I. (2019) Sentence-BERT: Sentence embeddings using Siamese BERT-networks. Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing and the 9th International Joint Conference on Natural Language Processing (EMNLP-IJCNLP), Hong Kong, China, pp. 3982–3992. Association for Computational Linguistics. https://doi.org/10.18653/v1/D19-1410
Wu Z., Shen C., van den Hengel A. (2019) Wider or deeper: Revisiting the ResNet model for visual recognition. Pattern Recognition, vol. 90, pp. 119–133. https://doi.org/10.1016/j.patcog.2019.01.006
Tan M., Le Q. (2019) EfficientNet: Rethinking model scaling for convolutional neural networks. Proceedings of the 36th International Conference on Machine Learning, vol. 97, pp. 6105–6114.
Dosovitskiy A., Beyer L., Kolesnikov A. et al. (2021) An image is worth 16x16 words: transformers for image recognition at scale. arXiv:2010.11929. https://doi.org/10.48550/arXiv.2010.11929
Radford A., Kim J. W., Hallacy C. et. al. (2021) Learning transferable visual models from natural language supervision. Proceedings of the 38th International Conference on Machine Learning, vol. 139, pp. 8748–8763.
Caron M., Touvron H., Misra I. et. al. (2021) Emerging properties in self-supervised vision transformers. arXiv:2104.14294. https://doi.org/10.48550/arXiv.2104.14294
Huang X., Khetan A., Cvitkovic M. et. al. (2020) TabTransformer: Tabular data modeling using contextual embeddings. arXiv:2012.06678. https://doi.org/10.48550/arXiv.2012.06678
Gorishniy Y., Rubachev I., Khrulkov V., et. al. (2021) Revisiting deep learning models for tabular data. Proceedings of the 35th International Conference on Neural Information Processing Systems (NIPS’21), article 1447, pp. 18932–18943.