Как собрать номера телефонов, если они все - в разном формате (иногда не совсем правильном)?



  • Здравствуйте!
    Нужна помощь -- хотя бы направление, в какую сторону искать решение ситуации....
    Есть сайт - https://dog.pet2me.com/ru/club/search/?category=1&breed=237&country=1&city= (питомники собак по породам).
    Проблема в том, что там в каждом объявлении есть номер телефона (но они в таких странных форматах, что потом сложно использовать для телефонии).
    Возможно, есть идеи, как спарсить все номера , чтобы они были в формате +79....(номер телефона).?
    alt text
    Буду рад любой помощи в этой сложной ситуации.... потому что как по мне - то это вообще нереально, но может есть какое-то решение возможно этой ситуации?(



    1. Номера не разбросаны по странице, а в одной позиции. Это сужает поиск
    2. Каждый номер начинается на 8 или +7 и перед ним нет каких=то других цифровых или буквенных символов
    3. В номере могут быть скобки, пробелы и дефисы. Мб еще тире
    4. Номер по природе своей имеет минимальную длину

    Из всего этого можно собрать регулярку. И прикрутить xPath для надёжности



  • спарсить числа. в 90% случаях у вас это номер телефона судя по скрину (исключение почтовый индекс)



  • Тут проще регуляркой например
    1.xml



  • @timmykr у индекса мало цифер



  • проще удалить плюсы скобки и т.д. и останется голый номер


Log in to reply
 

  • 2
  • 5
  • 16
  • 7
  • 3
  • 3
  • 8
  • 3