Когда мы сталкиваемся с задачей, которая предполагает обработку большого количества «.csv» файлов которые имеют различную структуру столбцов, их название, а также содержимое, которое требует очистки, желательно сделать небольшой скрипт, который поможет обработке.
Дисклеймер: Все данные, предоставленные в данной статье, взяты из открытых источников, не призывают к действию и являются только лишь данными для ознакомления, и изучения механизмов используемых технологий.
Итак, требуемая задача: «Обработать несколько «.csv» файлов, нормализовать содержимое столбцов таким образом, чтобы данные были одного формата. Например, номер телефона: 8 (908) 800 80 80 должен стать: 79088008080».
Для этого мы будем использовать скрипт на python, а также вспомогательные инструменты, так как без предварительной обработки файлов нам не обойтись, в связи с разнообразием заголовков столбцов, а то и вовсе их отсутствием. Хотел бы сказать сразу, что данный алгоритм я выработал для себя и просто хочу поделится...