Как собрать номера телефонов, если они все - в разном формате (иногда не совсем правильном)?
-
Здравствуйте!
Нужна помощь -- хотя бы направление, в какую сторону искать решение ситуации....
Есть сайт - https://dog.pet2me.com/ru/club/search/?category=1&breed=237&country=1&city= (питомники собак по породам).
Проблема в том, что там в каждом объявлении есть номер телефона (но они в таких странных форматах, что потом сложно использовать для телефонии).
Возможно, есть идеи, как спарсить все номера , чтобы они были в формате +79....(номер телефона).?
Буду рад любой помощи в этой сложной ситуации.... потому что как по мне - то это вообще нереально, но может есть какое-то решение возможно этой ситуации?(
-
- Номера не разбросаны по странице, а в одной позиции. Это сужает поиск
- Каждый номер начинается на 8 или +7 и перед ним нет каких=то других цифровых или буквенных символов
- В номере могут быть скобки, пробелы и дефисы. Мб еще тире
- Номер по природе своей имеет минимальную длину
Из всего этого можно собрать регулярку. И прикрутить xPath для надёжности
-
спарсить числа. в 90% случаях у вас это номер телефона судя по скрину (исключение почтовый индекс)
-
Тут проще регуляркой например
1.xml
-
@timmykr у индекса мало цифер
-
проще удалить плюсы скобки и т.д. и останется голый номер