@mocard проблема не в базе, а в том что в бас работа с ней реализована синхронно (
Можно работать через веб драйвер в nodejs, в лайфхак есть пример
Парсер E-mail с разных сайтов
-
@Ivserzh12 said in Парсер E-mail с разных сайтов:
"Контакты"
У вас проблема не с парсингом, а спереходом по ссылке.
-
@denanotherday said in Парсер E-mail с разных сайтов:
@Ivserzh12 said in Парсер E-mail с разных сайтов:
"Контакты"
У вас проблема не с парсингом, а спереходом по ссылке.
Есть что-то общее между сайтами или с селекторами "Контакты", или ссылками?
Если есть селектор "Контакты", то просто кликаете и собираете. -
@denanotherday да, сайты разные, где лендинг (одностраничник), а где-то несколько страниц с разным уровнем вложенности.
Обратил внимание, что в 98% случаях, есть меню в шапке и раздел "Контакты" (где-то оно ведет на якорь (на лендинге), где-то на отдельную страницу. Вот и думаю, как взять эту ссылку из меню "Контакты", потом загрузить эту страницу и там уже спарсить e-mail.
Т.е на данном этапе, у меня проблема парсингом (назовем это так) ссылки "Контакты" -
@Ivserzh12 said in Парсер E-mail с разных сайтов:
@denanotherday да, сайты разные, где лендинг (одностраничник), а где-то несколько страниц с разным уровнем вложенности.
Обратил внимание, что в 98% случаях, есть меню в шапке и раздел "Контакты" (где-то оно ведет на якорь (на лендинге), где-то на отдельную страницу. Вот и думаю, как взять эту ссылку из меню "Контакты", потом загрузить эту страницу и там уже спарсить e-mail.
Т.е на данном этапе, у меня проблема парсингом (назовем это так) ссылки "Контакты"Попробуйте >MATCH> онтакты
Еси перейдет, парси регуляркой -
@tet-vivi said in Парсер E-mail с разных сайтов:
@Ivserzh12 said in Парсер E-mail с разных сайтов:
Вот и думаю, как взять эту ссылку из меню "Контакты", потом загрузить эту страницу и там уже спарсить e-mail.
а нельзя просто перейти по этой ссылке?
Нельзя, все сайты разные, где-то этот пункт "Контакты" скрыт в выпадающем меню, соответственно действие "Двигать мышь и кликнуть по элементу" не сможет этого сделать
-
@Ivserzh12 ссылки имеют вид
<a href="URL">контакты</a>если это якорь то URL имеет вид #id
Попробуйте >MATCH> онтакты
Еси перейдет, парси регуляркойможет не помочь если генерируется js при наведении
-
@denanotherday said in Парсер E-mail с разных сайтов:
@Ivserzh12 said in Парсер E-mail с разных сайтов:
@denanotherday да, сайты разные, где лендинг (одностраничник), а где-то несколько страниц с разным уровнем вложенности.
Обратил внимание, что в 98% случаях, есть меню в шапке и раздел "Контакты" (где-то оно ведет на якорь (на лендинге), где-то на отдельную страницу. Вот и думаю, как взять эту ссылку из меню "Контакты", потом загрузить эту страницу и там уже спарсить e-mail.
Т.е на данном этапе, у меня проблема парсингом (назовем это так) ссылки "Контакты"Попробуйте >MATCH> онтакты
Еси перейдет, парси регуляркойПробовал, не получается, когда данный пункт скрыт в выпадающем меню
-
@Ivserzh12 said in Парсер E-mail с разных сайтов:
@denanotherday да, сайты разные, где лендинг (одностраничник), а где-то несколько страниц с разным уровнем вложенности.
Обратил внимание, что в 98% случаях, есть меню в шапке и раздел "Контакты" (где-то оно ведет на якорь (на лендинге), где-то на отдельную страницу. Вот и думаю, как взять эту ссылку из меню "Контакты", потом загрузить эту страницу и там уже спарсить e-mail.
Т.е на данном этапе, у меня проблема парсингом (назовем это так) ссылки "Контакты"Тогда парси все сслки с сайта, в них ищи нужную
-
Пробовал, не получается, когда данный пункт скрыт в выпадающем меню
контакты если на отдельной страницы то их URL обычно похож.(site.test/contact, site.test/info/contact ...)
сайты обычно делаются на каком то ПО который имеет свои стандарты, в том числе стандартное расположения элементова так это "выпадающем меню" нужно смотреть js и обмен данными с сервером
можно эмулировать наведение мыши на элемен открывающим меню, а потом искать ссылку контактов
-
@Ivserzh12 у меня руки асе ни как не дойдут, делайте, под каждый сайт свой шаб. Ссылку вытаскивать не обязательно, есть стандарты, contact contacts и т.д, перебором проверяете сущемствование, того или иного элемента. В зависимости от истины или ложи, составляет дальше шаблоны под каждые контакты. Да долго и муторно, по другому ни как.