@UserTrue
Когда искал по форуму, часто встречал ответы этого пользователя. Если найдется минутка, поделитесь опытом. Пока выделил два возможных решения замены curl http. Может есть еще варианты? Какой вариант для вас лучше?
Помогите с регуляркой
-
@santilo said in Помогите с регуляркой:
@Zenodrot said in Помогите с регуляркой:
все работает как по маслу, мануал сохранил =) от души тебе респект
Рад был помочь
Рано я радовался ) получаю иногда кривые ссылки
www.zoopicture.ru/porody-koshek/ bazarpnz.ru/zhivotnye_rastenija/koshki/? lurkmore.to/ www.vokrugsveta.ru/article/200637/ https://www.adme.ru/.../19-shikarnyh-koshek-kotorye-stoyat-celoe- sostoyanie-1358165/ https://www.farpost.ru/vladivostok/pets/ / https://www.avito.ru/kaliningrad/koshki https://www.avito.ru/tula/koshki https://www.avito.ru/voronezh/koshki https://www.avito.ru/sankt-peterburg/koshki https://www.avito.ru/rostov-na-donu/koshki https://www.avito.ru/nizhniy_novgorod/koshki?geo=56... www.bbc.com/russian/.../11/151113_vert_earth_ _are_selfish murkote.com/abissinskaya-koshka/ https://minecraft-ru.gamepedia.com/ www.nat-geo.ru/nature/192418-zachem-koshki-murlykayut/ https://market.sakh.com/animals/ / catmuseum.ru/ https://ok.ru/milota https://www.ss.lv/ru/animals/ / https://www.purina.ru/ https://life.ru/t/ https://www.purina.ru/ www.royal-canin.ru/catalog/korm_dlya_koshek/ www.stihi-rus.ru/1/Cvetaeva/71 /как бы подправить
Xpath =) ? мануал покурю обязательно просто очень время ужато, проект нужен в боевом режиме еще вчера ( -
@Zenodrot said in Помогите с регуляркой:
@santilo said in Помогите с регуляркой:
@Zenodrot said in Помогите с регуляркой:
все работает как по маслу, мануал сохранил =) от души тебе респект
Рад был помочь
Рано я радовался ) получаю иногда кривые ссылки
www.zoopicture.ru/porody-koshek/ bazarpnz.ru/zhivotnye_rastenija/koshki/? lurkmore.to/ www.vokrugsveta.ru/article/200637/ https://www.adme.ru/.../19-shikarnyh-koshek-kotorye-stoyat-celoe- sostoyanie-1358165/ https://www.farpost.ru/vladivostok/pets/ / https://www.avito.ru/kaliningrad/koshki https://www.avito.ru/tula/koshki https://www.avito.ru/voronezh/koshki https://www.avito.ru/sankt-peterburg/koshki https://www.avito.ru/rostov-na-donu/koshki https://www.avito.ru/nizhniy_novgorod/koshki?geo=56... www.bbc.com/russian/.../11/151113_vert_earth_ _are_selfish murkote.com/abissinskaya-koshka/ https://minecraft-ru.gamepedia.com/ www.nat-geo.ru/nature/192418-zachem-koshki-murlykayut/ https://market.sakh.com/animals/ / catmuseum.ru/ https://ok.ru/milota https://www.ss.lv/ru/animals/ / https://www.purina.ru/ https://life.ru/t/ https://www.purina.ru/ www.royal-canin.ru/catalog/korm_dlya_koshek/ www.stihi-rus.ru/1/Cvetaeva/71 /как бы подправить
Xpath =) ? мануал покурю обязательно просто очень время ужато, проект нужен в боевом режиме еще вчера (Блин) действительно есть такой косяк) вот решение:
1 действие HTTP-Клиент Установить Заголовок , установите юзер агент который идет по умолчанию
2 get запрос
3 xpath действие с таким запросомXpath запрос://h3[@class="r"]/a/@href
-
@santilo said in Помогите с регуляркой:
//h3[@class="r"]/a/@href
лишнего зацепляет
/url?q=https://www.1und1.de/&sa=U&ved=0ahUKEwjS8Lu14qPUAhVCVhQKHXCIDCkQFggUMAA&usg=AFQjCNFR960Lmvc8lkENINwAoOLRlyWjHw /url?q=http://www.kicker.de/news/fussball/bundesliga/spieltag/1-bundesliga/2016-17/spieltag.html&sa=U&ved=0ahUKEwjS8Lu14qPUAhVCVhQKHXCIDCkQFggeMAE&usg=AFQjCNE7IdQ5qsd455s6o61kR0LGdDLwPw /url?q=https://de.wikipedia.org/wiki/1&sa=U&ved=0ahUKEwjS8Lu14qPUAhVCVhQKHXCIDCkQFggoMAI&usg=AFQjCNHEf-h216SqyBzeZkowBDzlv5TVBQ /url?q=https://www.zdf.de/filme/herzkino/honigfrauen-100.html&sa=U&ved=0ahUKEwjS8Lu14qPUAhVCVhQKHXCIDCkQFgguMAM&usg=AFQjCNEPRjr35K28Cl4JFyu84vnPP59UNw /url?q=https://www.gesetze-im-internet.de/agg/__1.html&sa=U&ved=0ahUKEwjS8Lu14qPUAhVCVhQKHXCIDCkQFgg0MAQ&usg=AFQjCNGHEI_OtfzlMeQ5X1YPggHs3rD4uw /url?q=https://www.gesetze-im-internet.de/pauswg/__1.html&sa=U&ved=0ahUKEwjS8Lu14qPUAhVCVhQKHXCIDCkQFgg5MAU&usg=AFQjCNFOy54zi6jqgQhTarWoI3tf-Lsyug /url?q=https://www.gesetze-im-internet.de/ustg_1980/__1.html&sa=U&ved=0ahUKEwjS8Lu14qPUAhVCVhQKHXCIDCkQFgg_MAY&usg=AFQjCNFCifMQ23ND-Ccl53NOGz_-W7SP0A /url?q=https://www.gesetze-im-internet.de/gewschg/__1.html&sa=U&ved=0ahUKEwjS8Lu14qPUAhVCVhQKHXCIDCkQFghEMAc&usg=AFQjCNESfh6onCe5NWnRqKAwJGp7d9MxPQ /url?q=https://www.kabeleins.de/&sa=U&ved=0ahUKEwjS8Lu14qPUAhVCVhQKHXCIDCkQFghKMAg&usg=AFQjCNFBMdyA_LjiVFHFTzbLn9lDiMssCA /url?q=https://dejure.org/gesetze/KSchG/1.html&sa=U&ved=0ahUKEwjS8Lu14qPUAhVCVhQKHXCIDCkQFghPMAk&usg=AFQjCNFPanhB7IuumcWHMhiPMj6vZLUPSA -
@Zenodrot said in Помогите с регуляркой:
@santilo said in Помогите с регуляркой:
//h3[@class="r"]/a/@href
лишнего зацепляет
/url?q=https://www.1und1.de/&sa=U&ved=0ahUKEwjS8Lu14qPUAhVCVhQKHXCIDCkQFggUMAA&usg=AFQjCNFR960Lmvc8lkENINwAoOLRlyWjHw /url?q=http://www.kicker.de/news/fussball/bundesliga/spieltag/1-bundesliga/2016-17/spieltag.html&sa=U&ved=0ahUKEwjS8Lu14qPUAhVCVhQKHXCIDCkQFggeMAE&usg=AFQjCNE7IdQ5qsd455s6o61kR0LGdDLwPw /url?q=https://de.wikipedia.org/wiki/1&sa=U&ved=0ahUKEwjS8Lu14qPUAhVCVhQKHXCIDCkQFggoMAI&usg=AFQjCNHEf-h216SqyBzeZkowBDzlv5TVBQ /url?q=https://www.zdf.de/filme/herzkino/honigfrauen-100.html&sa=U&ved=0ahUKEwjS8Lu14qPUAhVCVhQKHXCIDCkQFgguMAM&usg=AFQjCNEPRjr35K28Cl4JFyu84vnPP59UNw /url?q=https://www.gesetze-im-internet.de/agg/__1.html&sa=U&ved=0ahUKEwjS8Lu14qPUAhVCVhQKHXCIDCkQFgg0MAQ&usg=AFQjCNGHEI_OtfzlMeQ5X1YPggHs3rD4uw /url?q=https://www.gesetze-im-internet.de/pauswg/__1.html&sa=U&ved=0ahUKEwjS8Lu14qPUAhVCVhQKHXCIDCkQFgg5MAU&usg=AFQjCNFOy54zi6jqgQhTarWoI3tf-Lsyug /url?q=https://www.gesetze-im-internet.de/ustg_1980/__1.html&sa=U&ved=0ahUKEwjS8Lu14qPUAhVCVhQKHXCIDCkQFgg_MAY&usg=AFQjCNFCifMQ23ND-Ccl53NOGz_-W7SP0A /url?q=https://www.gesetze-im-internet.de/gewschg/__1.html&sa=U&ved=0ahUKEwjS8Lu14qPUAhVCVhQKHXCIDCkQFghEMAc&usg=AFQjCNESfh6onCe5NWnRqKAwJGp7d9MxPQ /url?q=https://www.kabeleins.de/&sa=U&ved=0ahUKEwjS8Lu14qPUAhVCVhQKHXCIDCkQFghKMAg&usg=AFQjCNFBMdyA_LjiVFHFTzbLn9lDiMssCA /url?q=https://dejure.org/gesetze/KSchG/1.html&sa=U&ved=0ahUKEwjS8Lu14qPUAhVCVhQKHXCIDCkQFghPMAk&usg=AFQjCNFPanhB7IuumcWHMhiPMj6vZLUPSAПеред get запросом ты установил юзер агент?)
-
@santilo said in Помогите с регуляркой:
@Zenodrot said in Помогите с регуляркой:
@santilo said in Помогите с регуляркой:
//h3[@class="r"]/a/@href
лишнего зацепляет
/url?q=https://www.1und1.de/&sa=U&ved=0ahUKEwjS8Lu14qPUAhVCVhQKHXCIDCkQFggUMAA&usg=AFQjCNFR960Lmvc8lkENINwAoOLRlyWjHw /url?q=http://www.kicker.de/news/fussball/bundesliga/spieltag/1-bundesliga/2016-17/spieltag.html&sa=U&ved=0ahUKEwjS8Lu14qPUAhVCVhQKHXCIDCkQFggeMAE&usg=AFQjCNE7IdQ5qsd455s6o61kR0LGdDLwPw /url?q=https://de.wikipedia.org/wiki/1&sa=U&ved=0ahUKEwjS8Lu14qPUAhVCVhQKHXCIDCkQFggoMAI&usg=AFQjCNHEf-h216SqyBzeZkowBDzlv5TVBQ /url?q=https://www.zdf.de/filme/herzkino/honigfrauen-100.html&sa=U&ved=0ahUKEwjS8Lu14qPUAhVCVhQKHXCIDCkQFgguMAM&usg=AFQjCNEPRjr35K28Cl4JFyu84vnPP59UNw /url?q=https://www.gesetze-im-internet.de/agg/__1.html&sa=U&ved=0ahUKEwjS8Lu14qPUAhVCVhQKHXCIDCkQFgg0MAQ&usg=AFQjCNGHEI_OtfzlMeQ5X1YPggHs3rD4uw /url?q=https://www.gesetze-im-internet.de/pauswg/__1.html&sa=U&ved=0ahUKEwjS8Lu14qPUAhVCVhQKHXCIDCkQFgg5MAU&usg=AFQjCNFOy54zi6jqgQhTarWoI3tf-Lsyug /url?q=https://www.gesetze-im-internet.de/ustg_1980/__1.html&sa=U&ved=0ahUKEwjS8Lu14qPUAhVCVhQKHXCIDCkQFgg_MAY&usg=AFQjCNFCifMQ23ND-Ccl53NOGz_-W7SP0A /url?q=https://www.gesetze-im-internet.de/gewschg/__1.html&sa=U&ved=0ahUKEwjS8Lu14qPUAhVCVhQKHXCIDCkQFghEMAc&usg=AFQjCNESfh6onCe5NWnRqKAwJGp7d9MxPQ /url?q=https://www.kabeleins.de/&sa=U&ved=0ahUKEwjS8Lu14qPUAhVCVhQKHXCIDCkQFghKMAg&usg=AFQjCNFBMdyA_LjiVFHFTzbLn9lDiMssCA /url?q=https://dejure.org/gesetze/KSchG/1.html&sa=U&ved=0ahUKEwjS8Lu14qPUAhVCVhQKHXCIDCkQFghPMAk&usg=AFQjCNFPanhB7IuumcWHMhiPMj6vZLUPSAПеред get запросом ты установил юзер агент?)
да сори, с ним все нормально пошло, сеенкс = )
-
@Zenodrot said in Помогите с регуляркой:
@santilo said in Помогите с регуляркой:
@Zenodrot said in Помогите с регуляркой:
@santilo said in Помогите с регуляркой:
//h3[@class="r"]/a/@href
лишнего зацепляет
/url?q=https://www.1und1.de/&sa=U&ved=0ahUKEwjS8Lu14qPUAhVCVhQKHXCIDCkQFggUMAA&usg=AFQjCNFR960Lmvc8lkENINwAoOLRlyWjHw /url?q=http://www.kicker.de/news/fussball/bundesliga/spieltag/1-bundesliga/2016-17/spieltag.html&sa=U&ved=0ahUKEwjS8Lu14qPUAhVCVhQKHXCIDCkQFggeMAE&usg=AFQjCNE7IdQ5qsd455s6o61kR0LGdDLwPw /url?q=https://de.wikipedia.org/wiki/1&sa=U&ved=0ahUKEwjS8Lu14qPUAhVCVhQKHXCIDCkQFggoMAI&usg=AFQjCNHEf-h216SqyBzeZkowBDzlv5TVBQ /url?q=https://www.zdf.de/filme/herzkino/honigfrauen-100.html&sa=U&ved=0ahUKEwjS8Lu14qPUAhVCVhQKHXCIDCkQFgguMAM&usg=AFQjCNEPRjr35K28Cl4JFyu84vnPP59UNw /url?q=https://www.gesetze-im-internet.de/agg/__1.html&sa=U&ved=0ahUKEwjS8Lu14qPUAhVCVhQKHXCIDCkQFgg0MAQ&usg=AFQjCNGHEI_OtfzlMeQ5X1YPggHs3rD4uw /url?q=https://www.gesetze-im-internet.de/pauswg/__1.html&sa=U&ved=0ahUKEwjS8Lu14qPUAhVCVhQKHXCIDCkQFgg5MAU&usg=AFQjCNFOy54zi6jqgQhTarWoI3tf-Lsyug /url?q=https://www.gesetze-im-internet.de/ustg_1980/__1.html&sa=U&ved=0ahUKEwjS8Lu14qPUAhVCVhQKHXCIDCkQFgg_MAY&usg=AFQjCNFCifMQ23ND-Ccl53NOGz_-W7SP0A /url?q=https://www.gesetze-im-internet.de/gewschg/__1.html&sa=U&ved=0ahUKEwjS8Lu14qPUAhVCVhQKHXCIDCkQFghEMAc&usg=AFQjCNESfh6onCe5NWnRqKAwJGp7d9MxPQ /url?q=https://www.kabeleins.de/&sa=U&ved=0ahUKEwjS8Lu14qPUAhVCVhQKHXCIDCkQFghKMAg&usg=AFQjCNFBMdyA_LjiVFHFTzbLn9lDiMssCA /url?q=https://dejure.org/gesetze/KSchG/1.html&sa=U&ved=0ahUKEwjS8Lu14qPUAhVCVhQKHXCIDCkQFghPMAk&usg=AFQjCNFPanhB7IuumcWHMhiPMj6vZLUPSAПеред get запросом ты установил юзер агент?)
да сори, с ним все нормально пошло, сеенкс = )
кстати) можешь попробовать применить свою регулярку, может она теперь нормально будет ссылки парсить, без лишнего мусора) только перед get запросом также установи заголовок)
-
@santilo said in Помогите с регуляркой:
@Zenodrot said in Помогите с регуляркой:
@santilo said in Помогите с регуляркой:
@Zenodrot said in Помогите с регуляркой:
@santilo said in Помогите с регуляркой:
//h3[@class="r"]/a/@href
лишнего зацепляет
/url?q=https://www.1und1.de/&sa=U&ved=0ahUKEwjS8Lu14qPUAhVCVhQKHXCIDCkQFggUMAA&usg=AFQjCNFR960Lmvc8lkENINwAoOLRlyWjHw /url?q=http://www.kicker.de/news/fussball/bundesliga/spieltag/1-bundesliga/2016-17/spieltag.html&sa=U&ved=0ahUKEwjS8Lu14qPUAhVCVhQKHXCIDCkQFggeMAE&usg=AFQjCNE7IdQ5qsd455s6o61kR0LGdDLwPw /url?q=https://de.wikipedia.org/wiki/1&sa=U&ved=0ahUKEwjS8Lu14qPUAhVCVhQKHXCIDCkQFggoMAI&usg=AFQjCNHEf-h216SqyBzeZkowBDzlv5TVBQ /url?q=https://www.zdf.de/filme/herzkino/honigfrauen-100.html&sa=U&ved=0ahUKEwjS8Lu14qPUAhVCVhQKHXCIDCkQFgguMAM&usg=AFQjCNEPRjr35K28Cl4JFyu84vnPP59UNw /url?q=https://www.gesetze-im-internet.de/agg/__1.html&sa=U&ved=0ahUKEwjS8Lu14qPUAhVCVhQKHXCIDCkQFgg0MAQ&usg=AFQjCNGHEI_OtfzlMeQ5X1YPggHs3rD4uw /url?q=https://www.gesetze-im-internet.de/pauswg/__1.html&sa=U&ved=0ahUKEwjS8Lu14qPUAhVCVhQKHXCIDCkQFgg5MAU&usg=AFQjCNFOy54zi6jqgQhTarWoI3tf-Lsyug /url?q=https://www.gesetze-im-internet.de/ustg_1980/__1.html&sa=U&ved=0ahUKEwjS8Lu14qPUAhVCVhQKHXCIDCkQFgg_MAY&usg=AFQjCNFCifMQ23ND-Ccl53NOGz_-W7SP0A /url?q=https://www.gesetze-im-internet.de/gewschg/__1.html&sa=U&ved=0ahUKEwjS8Lu14qPUAhVCVhQKHXCIDCkQFghEMAc&usg=AFQjCNESfh6onCe5NWnRqKAwJGp7d9MxPQ /url?q=https://www.kabeleins.de/&sa=U&ved=0ahUKEwjS8Lu14qPUAhVCVhQKHXCIDCkQFghKMAg&usg=AFQjCNFBMdyA_LjiVFHFTzbLn9lDiMssCA /url?q=https://dejure.org/gesetze/KSchG/1.html&sa=U&ved=0ahUKEwjS8Lu14qPUAhVCVhQKHXCIDCkQFghPMAk&usg=AFQjCNFPanhB7IuumcWHMhiPMj6vZLUPSAПеред get запросом ты установил юзер агент?)
да сори, с ним все нормально пошло, сеенкс = )
кстати) можешь попробовать применить свою регулярку, может она теперь нормально будет ссылки парсить, без лишнего мусора) только перед get запросом также установи заголовок)
врядли работать будет, в конструкторе то неробит )
получаться что без агента гугл выдает другую разметку? так что ли понимать разницу в xpath? -
@Zenodrot said in Помогите с регуляркой:
@santilo said in Помогите с регуляркой:
@Zenodrot said in Помогите с регуляркой:
@santilo said in Помогите с регуляркой:
@Zenodrot said in Помогите с регуляркой:
@santilo said in Помогите с регуляркой:
//h3[@class="r"]/a/@href
лишнего зацепляет
/url?q=https://www.1und1.de/&sa=U&ved=0ahUKEwjS8Lu14qPUAhVCVhQKHXCIDCkQFggUMAA&usg=AFQjCNFR960Lmvc8lkENINwAoOLRlyWjHw /url?q=http://www.kicker.de/news/fussball/bundesliga/spieltag/1-bundesliga/2016-17/spieltag.html&sa=U&ved=0ahUKEwjS8Lu14qPUAhVCVhQKHXCIDCkQFggeMAE&usg=AFQjCNE7IdQ5qsd455s6o61kR0LGdDLwPw /url?q=https://de.wikipedia.org/wiki/1&sa=U&ved=0ahUKEwjS8Lu14qPUAhVCVhQKHXCIDCkQFggoMAI&usg=AFQjCNHEf-h216SqyBzeZkowBDzlv5TVBQ /url?q=https://www.zdf.de/filme/herzkino/honigfrauen-100.html&sa=U&ved=0ahUKEwjS8Lu14qPUAhVCVhQKHXCIDCkQFgguMAM&usg=AFQjCNEPRjr35K28Cl4JFyu84vnPP59UNw /url?q=https://www.gesetze-im-internet.de/agg/__1.html&sa=U&ved=0ahUKEwjS8Lu14qPUAhVCVhQKHXCIDCkQFgg0MAQ&usg=AFQjCNGHEI_OtfzlMeQ5X1YPggHs3rD4uw /url?q=https://www.gesetze-im-internet.de/pauswg/__1.html&sa=U&ved=0ahUKEwjS8Lu14qPUAhVCVhQKHXCIDCkQFgg5MAU&usg=AFQjCNFOy54zi6jqgQhTarWoI3tf-Lsyug /url?q=https://www.gesetze-im-internet.de/ustg_1980/__1.html&sa=U&ved=0ahUKEwjS8Lu14qPUAhVCVhQKHXCIDCkQFgg_MAY&usg=AFQjCNFCifMQ23ND-Ccl53NOGz_-W7SP0A /url?q=https://www.gesetze-im-internet.de/gewschg/__1.html&sa=U&ved=0ahUKEwjS8Lu14qPUAhVCVhQKHXCIDCkQFghEMAc&usg=AFQjCNESfh6onCe5NWnRqKAwJGp7d9MxPQ /url?q=https://www.kabeleins.de/&sa=U&ved=0ahUKEwjS8Lu14qPUAhVCVhQKHXCIDCkQFghKMAg&usg=AFQjCNFBMdyA_LjiVFHFTzbLn9lDiMssCA /url?q=https://dejure.org/gesetze/KSchG/1.html&sa=U&ved=0ahUKEwjS8Lu14qPUAhVCVhQKHXCIDCkQFghPMAk&usg=AFQjCNFPanhB7IuumcWHMhiPMj6vZLUPSAПеред get запросом ты установил юзер агент?)
да сори, с ним все нормально пошло, сеенкс = )
кстати) можешь попробовать применить свою регулярку, может она теперь нормально будет ссылки парсить, без лишнего мусора) только перед get запросом также установи заголовок)
врядли работать будет, в конструкторе то неробит )
получаться что без агента гугл выдает другую разметку? так что ли понимать разницу в xpath?да, разметка чуть другая) без юзер агента, из за этого 2 xpath запрос парсил ссылки с мусором), а 1 запрос //cite он изначально не очень подходил) в нем не всегда полные адреса
-
@santilo said in Помогите с регуляркой:
@Zenodrot said in Помогите с регуляркой:
@santilo said in Помогите с регуляркой:
@Zenodrot said in Помогите с регуляркой:
@santilo said in Помогите с регуляркой:
@Zenodrot said in Помогите с регуляркой:
@santilo said in Помогите с регуляркой:
//h3[@class="r"]/a/@href
лишнего зацепляет
/url?q=https://www.1und1.de/&sa=U&ved=0ahUKEwjS8Lu14qPUAhVCVhQKHXCIDCkQFggUMAA&usg=AFQjCNFR960Lmvc8lkENINwAoOLRlyWjHw /url?q=http://www.kicker.de/news/fussball/bundesliga/spieltag/1-bundesliga/2016-17/spieltag.html&sa=U&ved=0ahUKEwjS8Lu14qPUAhVCVhQKHXCIDCkQFggeMAE&usg=AFQjCNE7IdQ5qsd455s6o61kR0LGdDLwPw /url?q=https://de.wikipedia.org/wiki/1&sa=U&ved=0ahUKEwjS8Lu14qPUAhVCVhQKHXCIDCkQFggoMAI&usg=AFQjCNHEf-h216SqyBzeZkowBDzlv5TVBQ /url?q=https://www.zdf.de/filme/herzkino/honigfrauen-100.html&sa=U&ved=0ahUKEwjS8Lu14qPUAhVCVhQKHXCIDCkQFgguMAM&usg=AFQjCNEPRjr35K28Cl4JFyu84vnPP59UNw /url?q=https://www.gesetze-im-internet.de/agg/__1.html&sa=U&ved=0ahUKEwjS8Lu14qPUAhVCVhQKHXCIDCkQFgg0MAQ&usg=AFQjCNGHEI_OtfzlMeQ5X1YPggHs3rD4uw /url?q=https://www.gesetze-im-internet.de/pauswg/__1.html&sa=U&ved=0ahUKEwjS8Lu14qPUAhVCVhQKHXCIDCkQFgg5MAU&usg=AFQjCNFOy54zi6jqgQhTarWoI3tf-Lsyug /url?q=https://www.gesetze-im-internet.de/ustg_1980/__1.html&sa=U&ved=0ahUKEwjS8Lu14qPUAhVCVhQKHXCIDCkQFgg_MAY&usg=AFQjCNFCifMQ23ND-Ccl53NOGz_-W7SP0A /url?q=https://www.gesetze-im-internet.de/gewschg/__1.html&sa=U&ved=0ahUKEwjS8Lu14qPUAhVCVhQKHXCIDCkQFghEMAc&usg=AFQjCNESfh6onCe5NWnRqKAwJGp7d9MxPQ /url?q=https://www.kabeleins.de/&sa=U&ved=0ahUKEwjS8Lu14qPUAhVCVhQKHXCIDCkQFghKMAg&usg=AFQjCNFBMdyA_LjiVFHFTzbLn9lDiMssCA /url?q=https://dejure.org/gesetze/KSchG/1.html&sa=U&ved=0ahUKEwjS8Lu14qPUAhVCVhQKHXCIDCkQFghPMAk&usg=AFQjCNFPanhB7IuumcWHMhiPMj6vZLUPSAПеред get запросом ты установил юзер агент?)
да сори, с ним все нормально пошло, сеенкс = )
кстати) можешь попробовать применить свою регулярку, может она теперь нормально будет ссылки парсить, без лишнего мусора) только перед get запросом также установи заголовок)
врядли работать будет, в конструкторе то неробит )
получаться что без агента гугл выдает другую разметку? так что ли понимать разницу в xpath?да, разметка чуть другая) без юзер агента, из за этого 2 xpath запрос парсил ссылки с мусором), а 1 запрос //cite он изначально не очень подходил) в нем не всегда полные адреса
благодарка огромное тебе друже, какой раз уже выручил.
-
@Zenodrot said in Помогите с регуляркой:
@santilo said in Помогите с регуляркой:
@Zenodrot said in Помогите с регуляркой:
@santilo said in Помогите с регуляркой:
@Zenodrot said in Помогите с регуляркой:
@santilo said in Помогите с регуляркой:
@Zenodrot said in Помогите с регуляркой:
@santilo said in Помогите с регуляркой:
//h3[@class="r"]/a/@href
лишнего зацепляет
/url?q=https://www.1und1.de/&sa=U&ved=0ahUKEwjS8Lu14qPUAhVCVhQKHXCIDCkQFggUMAA&usg=AFQjCNFR960Lmvc8lkENINwAoOLRlyWjHw /url?q=http://www.kicker.de/news/fussball/bundesliga/spieltag/1-bundesliga/2016-17/spieltag.html&sa=U&ved=0ahUKEwjS8Lu14qPUAhVCVhQKHXCIDCkQFggeMAE&usg=AFQjCNE7IdQ5qsd455s6o61kR0LGdDLwPw /url?q=https://de.wikipedia.org/wiki/1&sa=U&ved=0ahUKEwjS8Lu14qPUAhVCVhQKHXCIDCkQFggoMAI&usg=AFQjCNHEf-h216SqyBzeZkowBDzlv5TVBQ /url?q=https://www.zdf.de/filme/herzkino/honigfrauen-100.html&sa=U&ved=0ahUKEwjS8Lu14qPUAhVCVhQKHXCIDCkQFgguMAM&usg=AFQjCNEPRjr35K28Cl4JFyu84vnPP59UNw /url?q=https://www.gesetze-im-internet.de/agg/__1.html&sa=U&ved=0ahUKEwjS8Lu14qPUAhVCVhQKHXCIDCkQFgg0MAQ&usg=AFQjCNGHEI_OtfzlMeQ5X1YPggHs3rD4uw /url?q=https://www.gesetze-im-internet.de/pauswg/__1.html&sa=U&ved=0ahUKEwjS8Lu14qPUAhVCVhQKHXCIDCkQFgg5MAU&usg=AFQjCNFOy54zi6jqgQhTarWoI3tf-Lsyug /url?q=https://www.gesetze-im-internet.de/ustg_1980/__1.html&sa=U&ved=0ahUKEwjS8Lu14qPUAhVCVhQKHXCIDCkQFgg_MAY&usg=AFQjCNFCifMQ23ND-Ccl53NOGz_-W7SP0A /url?q=https://www.gesetze-im-internet.de/gewschg/__1.html&sa=U&ved=0ahUKEwjS8Lu14qPUAhVCVhQKHXCIDCkQFghEMAc&usg=AFQjCNESfh6onCe5NWnRqKAwJGp7d9MxPQ /url?q=https://www.kabeleins.de/&sa=U&ved=0ahUKEwjS8Lu14qPUAhVCVhQKHXCIDCkQFghKMAg&usg=AFQjCNFBMdyA_LjiVFHFTzbLn9lDiMssCA /url?q=https://dejure.org/gesetze/KSchG/1.html&sa=U&ved=0ahUKEwjS8Lu14qPUAhVCVhQKHXCIDCkQFghPMAk&usg=AFQjCNFPanhB7IuumcWHMhiPMj6vZLUPSAПеред get запросом ты установил юзер агент?)
да сори, с ним все нормально пошло, сеенкс = )
кстати) можешь попробовать применить свою регулярку, может она теперь нормально будет ссылки парсить, без лишнего мусора) только перед get запросом также установи заголовок)
врядли работать будет, в конструкторе то неробит )
получаться что без агента гугл выдает другую разметку? так что ли понимать разницу в xpath?да, разметка чуть другая) без юзер агента, из за этого 2 xpath запрос парсил ссылки с мусором), а 1 запрос //cite он изначально не очень подходил) в нем не всегда полные адреса
благодарка огромное тебе друже, какой раз уже выручил.
Да без проблем, мне не сложно помочь, если это в моих силах
-
Приветствую! Джентельмены помогите, второй день бьюсь и пытаюсь вытащить ссылки и адреса картинок регулярками
src="(.+)"\ width и <a\ target="_blank"\ href="(.+)">созданными через бас-овский конструктор, из кода полученного со страницы через экшен "Извлечь все данные"
<html><head><script charset="UTF-8" language="JavaScript" src="http://aff2.florist.ru/site/showcase?action=16ac878aedf08da97a4f554e4f53bf4b"></script><style type="text/css"> .but_img{ background: url(http://aff2.florist.ru/images/showcase/Button.png); display: block; height: 26px; width: 85px; margin: 0 auto; } .but_img:hover { background: url(http://aff2.florist.ru/images/showcase/Button_focused.png); } </style></head><body style="background-color: white;"><table border="0" style="margin-left:-20px!important;background-color:#fff; width:100%; border: 0px;border: 0px solid #060000;"><tbody><tr border="0"><td border="0" style="text-align:center; border: 0px;" colspan="4"><p style="font-size:16px;"> </p></td></tr><tr><td border="0" align="center"><div style="text-align:center; border: 0px;"><a target="_blank" href="http://aff2.florist.ru/api/Processing?hash=16ac878aedf08da97a4f554e4f53bf4b&target=%2F%2Fwww.florist.ru%2Fbouquet-604411.html"><img border="0" src="https://storage.florist.ru/f/get/content/bouquet/7b/d1/_1266615adacb38c1d9253cc7b2e7/270x270/592fd3dc222c0.jpg" width="300px"></a><br>Солнце в Букете<p style="font-size:14px;">от 2390 RUR</p></div></td><td border="0" align="center"><div style="text-align:center; border: 0px;"><a target="_blank" href="http://aff2.florist.ru/api/Processing?hash=16ac878aedf08da97a4f554e4f53bf4b&target=%2F%2Fwww.florist.ru%2Fbouquet-604601.html"><img border="0" src="https://storage.florist.ru/f/get/content/bouquet/87/ae/_dfc47f94278f56dd5d2cfbee492f/270x270/58fa1afa43f4f.jpg" width="300px"></a><br>Охапка Роз<p style="font-size:14px;">от 4990 RUR</p></div></td><td border="0" align="center"><div style="text-align:center; border: 0px;"><a target="_blank" href="http://aff2.florist.ru/api/Processing?hash=16ac878aedf08da97a4f554e4f53bf4b&target=%2F%2Fwww.florist.ru%2Fbouquet-604654.html"><img border="0" src="https://storage.florist.ru/f/get/content/bouquet/19/ec/_a6ec5d585163e8e4cfef2f1e7fe0/270x270/58fa2054ceb44.jpg" width="300px"></a><br>Букет из Красных Роз<p style="font-size:14px;">от 890 RUR</p></div></td><td border="0" align="center"><div style="text-align:center; border: 0px;"><a target="_blank" href="http://aff2.florist.ru/api/Processing?hash=16ac878aedf08da97a4f554e4f53bf4b&target=%2F%2Fwww.florist.ru%2Fbouquet-606378.html"><img border="0" src="https://storage.florist.ru/f/get/content/bouquet/b5/96/_9fcc8b8557461cbc6c3f1f8ae41a/270x270/590c33e6b65b5.jpg" width="300px"></a><br>Английские Манеры<p style="font-size:14px;">от 5160 RUR</p></div></td></tr><tr><td border="0" align="center"><div style="text-align:center; border: 0px;"><a target="_blank" href="http://aff2.florist.ru/api/Processing?hash=16ac878aedf08da97a4f554e4f53bf4b&target=%2F%2Fwww.florist.ru%2Fbouquet-606382.html"><img border="0" src="https://storage.florist.ru/f/get/content/bouquet/4e/ec/_a211c6f0798c0969890942b0b1d4/270x270/59280551ed813.jpg" width="300px"></a><br>Букет Роз в Коробке<p style="font-size:14px;">от 3770 RUR</p></div></td><td border="0" align="center"><div style="text-align:center; border: 0px;"><a target="_blank" href="http://aff2.florist.ru/api/Processing?hash=16ac878aedf08da97a4f554e4f53bf4b&target=%2F%2Fwww.florist.ru%2Fbouquet-605370.html"><img border="0" src="https://storage.florist.ru/f/get/content/bouquet/2f/43/_baa53558b08bd9d17694ae6513b1/270x270/58fa1dd9f0c93.jpg" width="300px"></a><br>Кокетливая Француженка<p style="font-size:14px;">от 4100 RUR</p></div></td><td border="0" align="center"><div style="text-align:center; border: 0px;"><a target="_blank" href="http://aff2.florist.ru/api/Processing?hash=16ac878aedf08da97a4f554e4f53bf4b&target=%2F%2Fwww.florist.ru%2Fbouquet-603601.html"><img border="0" src="https://storage.florist.ru/f/get/content/bouquet/95/30/_e1281c278e5b4d992d9efb14ce29/270x270/58fa183aaddd5.jpg" width="300px"></a><br>Отпуск на Море<p style="font-size:14px;">от 3470 RUR</p></div></td><td border="0" align="center"><div style="text-align:center; border: 0px;"><a target="_blank" href="http://aff2.florist.ru/api/Processing?hash=16ac878aedf08da97a4f554e4f53bf4b&target=%2F%2Fwww.florist.ru%2Fbouquet-606261.html"><img border="0" src="https://storage.florist.ru/f/get/content/bouquet/ba/ac/_b2496defc3fa5347301a216daddb/270x270/58fa21d35ed2d.jpg" width="300px"></a><br>Женские Чары<p style="font-size:14px;">от 1990 RUR</p></div></td></tr><tr><td border="0" align="center"><div style="text-align:center; border: 0px;"><a target="_blank" href="http://aff2.florist.ru/api/Processing?hash=16ac878aedf08da97a4f554e4f53bf4b&target=%2F%2Fwww.florist.ru%2Fbouquet-602485.html"><img border="0" src="https://storage.florist.ru/f/get/content/bouquet/1f/13/_69fd3f59b0ba4ef7504bdf6b16a4/270x270/602485_130763_1428057462.jpg" width="300px"></a><br>Праздник Солнца<p style="font-size:14px;">от 2980 RUR</p></div></td><td border="0" align="center"><div style="text-align:center; border: 0px;"><a target="_blank" href="http://aff2.florist.ru/api/Processing?hash=16ac878aedf08da97a4f554e4f53bf4b&target=%2F%2Fwww.florist.ru%2Fbouquet-606098.html"><img border="0" src="https://storage.florist.ru/f/get/content/bouquet/81/78/_3b92ec7c5370b619c3471242ee64/270x270/58fa206e0b112.jpg" width="300px"></a><br>Корзина "Проявление Чувства"<p style="font-size:14px;">от 3170 RUR</p></div></td><td border="0" align="center"><div style="text-align:center; border: 0px;"><a target="_blank" href="http://aff2.florist.ru/api/Processing?hash=16ac878aedf08da97a4f554e4f53bf4b&target=%2F%2Fwww.florist.ru%2Fbouquet-603552.html"><img border="0" src="https://storage.florist.ru/f/get/content/bouquet/68/e5/_a1a1ee1061bd3e29660bb955acfd/270x270/58fa18188ec7d.jpg" width="300px"></a><br>Букет из Разноцветных Роз<p style="font-size:14px;">от 1290 RUR</p></div></td><td border="0" align="center"><div style="text-align:center; border: 0px;"><a target="_blank" href="http://aff2.florist.ru/api/Processing?hash=16ac878aedf08da97a4f554e4f53bf4b&target=%2F%2Fwww.florist.ru%2Fbouquet-603599.html"><img border="0" src="https://storage.florist.ru/f/get/content/bouquet/76/c2/_7a5ad2373ff718f6965d01ed1a38/270x270/58fa18387c749.jpg" width="300px"></a><br>Солнечный Ветер<p style="font-size:14px;">от 4170 RUR</p></div></td></tr><tr><td border="0" align="center"><div style="text-align:center; border: 0px;"><a target="_blank" href="http://aff2.florist.ru/api/Processing?hash=16ac878aedf08da97a4f554e4f53bf4b&target=%2F%2Fwww.florist.ru%2Fbouquet-606366.html"><img border="0" src="https://storage.florist.ru/f/get/content/bouquet/bb/82/_53539760d4be471e6abeede0773c/270x270/58fa197e9a766.jpg" width="300px"></a><br>Пастух и Пастушка<p style="font-size:14px;">от 1960 RUR</p></div></td><td border="0" align="center"><div style="text-align:center; border: 0px;"><a target="_blank" href="http://aff2.florist.ru/api/Processing?hash=16ac878aedf08da97a4f554e4f53bf4b&target=%2F%2Fwww.florist.ru%2Fbouquet-603731.html"><img border="0" src="https://storage.florist.ru/f/get/content/bouquet/1c/bc/_40f75c6bcc2ee1aa67216edfcb22/270x270/58fa18a3168ef.jpg" width="300px"></a><br>Розовые Пионы<p style="font-size:14px;">от 3670 RUR</p></div></td><td border="0" align="center"><div style="text-align:center; border: 0px;"><a target="_blank" href="http://aff2.florist.ru/api/Processing?hash=16ac878aedf08da97a4f554e4f53bf4b&target=%2F%2Fwww.florist.ru%2Fbouquet-604422.html"><img border="0" src="https://storage.florist.ru/f/get/content/bouquet/0d/aa/_286aadefe97c65d0cab69f28e0f4/270x270/58fa19ec46f94.jpg" width="300px"></a><br>Корзина "Гермини"<p style="font-size:14px;">от 4630 RUR</p></div></td><td border="0" align="center"><div style="text-align:center; border: 0px;"><a target="_blank" href="http://aff2.florist.ru/api/Processing?hash=16ac878aedf08da97a4f554e4f53bf4b&target=%2F%2Fwww.florist.ru%2Fbouquet-606368.html"><img border="0" src="https://storage.florist.ru/f/get/content/bouquet/13/2c/_0731ba895104c473cfcf14a9aa7d/270x270/590c35c62a933.jpg" width="300px"></a><br>Галактика Чувств<p style="font-size:14px;">от 1970 RUR</p></div></td></tr><tr><td border="0" align="center"><div style="text-align:center; border: 0px;"><a target="_blank" href="http://aff2.florist.ru/api/Processing?hash=16ac878aedf08da97a4f554e4f53bf4b&target=%2F%2Fwww.florist.ru%2Fbouquet-600205.html"><img border="0" src="https://storage.florist.ru/f/get/content/bouquet/ef/fc/_418d12472ac0282144fdb1602ed6/270x270/600205_105382_1394629540.jpg" width="300px"></a><br>Радуга<p style="font-size:14px;">от 1890 RUR</p></div></td><td border="0" align="center"><div style="text-align:center; border: 0px;"><a target="_blank" href="http://aff2.florist.ru/api/Processing?hash=16ac878aedf08da97a4f554e4f53bf4b&target=%2F%2Fwww.florist.ru%2Fbouquet-604417.html"><img border="0" src="https://storage.florist.ru/f/get/content/bouquet/c5/5e/_3c0373d67964637fe94544493dde/270x270/58fa19e6d978b.jpg" width="300px"></a><br>Розовая Роса<p style="font-size:14px;">от 6770 RUR</p></div></td><td border="0" align="center"><div style="text-align:center; border: 0px;"><a target="_blank" href="http://aff2.florist.ru/api/Processing?hash=16ac878aedf08da97a4f554e4f53bf4b&target=%2F%2Fwww.florist.ru%2Fbouquet-603754.html"><img border="0" src="https://storage.florist.ru/f/get/content/bouquet/0a/25/_6fef00e529efdb903fb32d62fdc6/270x270/58fa18c54d98b.jpg" width="300px"></a><br>Озорные Локоны<p style="font-size:14px;">от 2970 RUR</p></div></td><td border="0" align="center"><div style="text-align:center; border: 0px;"><a target="_blank" href="http://aff2.florist.ru/api/Processing?hash=16ac878aedf08da97a4f554e4f53bf4b&target=%2F%2Fwww.florist.ru%2Fbouquet-606340.html"><img border="0" src="https://storage.florist.ru/f/get/content/bouquet/96/3e/_fac17728c35cee9bdd1a89a87d79/270x270/58fa227bce7dc.jpg" width="300px"></a><br>Влюблённая Афродита<p style="font-size:14px;">от 3270 RUR</p></div></td></tr></tbody></table></body></html>но почему то тянется с мусором все, что не так делаю?
-
@santilo said in Помогите с регуляркой:
@Zenodrot said in Помогите с регуляркой:
@santilo said in Помогите с регуляркой:
@Zenodrot said in Помогите с регуляркой:
@santilo said in Помогите с регуляркой:
@Zenodrot said in Помогите с регуляркой:
@santilo said in Помогите с регуляркой:
@Zenodrot said in Помогите с регуляркой:
@santilo said in Помогите с регуляркой:
//h3[@class="r"]/a/@href
лишнего зацепляет
/url?q=https://www.1und1.de/&sa=U&ved=0ahUKEwjS8Lu14qPUAhVCVhQKHXCIDCkQFggUMAA&usg=AFQjCNFR960Lmvc8lkENINwAoOLRlyWjHw /url?q=http://www.kicker.de/news/fussball/bundesliga/spieltag/1-bundesliga/2016-17/spieltag.html&sa=U&ved=0ahUKEwjS8Lu14qPUAhVCVhQKHXCIDCkQFggeMAE&usg=AFQjCNE7IdQ5qsd455s6o61kR0LGdDLwPw /url?q=https://de.wikipedia.org/wiki/1&sa=U&ved=0ahUKEwjS8Lu14qPUAhVCVhQKHXCIDCkQFggoMAI&usg=AFQjCNHEf-h216SqyBzeZkowBDzlv5TVBQ /url?q=https://www.zdf.de/filme/herzkino/honigfrauen-100.html&sa=U&ved=0ahUKEwjS8Lu14qPUAhVCVhQKHXCIDCkQFgguMAM&usg=AFQjCNEPRjr35K28Cl4JFyu84vnPP59UNw /url?q=https://www.gesetze-im-internet.de/agg/__1.html&sa=U&ved=0ahUKEwjS8Lu14qPUAhVCVhQKHXCIDCkQFgg0MAQ&usg=AFQjCNGHEI_OtfzlMeQ5X1YPggHs3rD4uw /url?q=https://www.gesetze-im-internet.de/pauswg/__1.html&sa=U&ved=0ahUKEwjS8Lu14qPUAhVCVhQKHXCIDCkQFgg5MAU&usg=AFQjCNFOy54zi6jqgQhTarWoI3tf-Lsyug /url?q=https://www.gesetze-im-internet.de/ustg_1980/__1.html&sa=U&ved=0ahUKEwjS8Lu14qPUAhVCVhQKHXCIDCkQFgg_MAY&usg=AFQjCNFCifMQ23ND-Ccl53NOGz_-W7SP0A /url?q=https://www.gesetze-im-internet.de/gewschg/__1.html&sa=U&ved=0ahUKEwjS8Lu14qPUAhVCVhQKHXCIDCkQFghEMAc&usg=AFQjCNESfh6onCe5NWnRqKAwJGp7d9MxPQ /url?q=https://www.kabeleins.de/&sa=U&ved=0ahUKEwjS8Lu14qPUAhVCVhQKHXCIDCkQFghKMAg&usg=AFQjCNFBMdyA_LjiVFHFTzbLn9lDiMssCA /url?q=https://dejure.org/gesetze/KSchG/1.html&sa=U&ved=0ahUKEwjS8Lu14qPUAhVCVhQKHXCIDCkQFghPMAk&usg=AFQjCNFPanhB7IuumcWHMhiPMj6vZLUPSAПеред get запросом ты установил юзер агент?)
да сори, с ним все нормально пошло, сеенкс = )
кстати) можешь попробовать применить свою регулярку, может она теперь нормально будет ссылки парсить, без лишнего мусора) только перед get запросом также установи заголовок)
врядли работать будет, в конструкторе то неробит )
получаться что без агента гугл выдает другую разметку? так что ли понимать разницу в xpath?да, разметка чуть другая) без юзер агента, из за этого 2 xpath запрос парсил ссылки с мусором), а 1 запрос //cite он изначально не очень подходил) в нем не всегда полные адреса
благодарка огромное тебе друже, какой раз уже выручил.
Да без проблем, мне сложно помочь, если это в моих силах
гугл не победить ска )
дичь выдает, иногда зацепает кроме ссылок левый текст
russisch.urz.uni-leipzig.de/online-woerterbuch/ruw.htm?...падла%20(о%20человеке) https://slovar.cc › ... › Словарь воровского жаргона www.russki-mat.net/page.php?l=RuDe&a=падла,%20падло https://sozdik.kz/ru/dictionary/translate/ru/kk/падла/ os.colta.ru/music_modern/projects/8468/details/9827/ www.morfologija.ru/словоформа/падлаhttps://ok.ru/video/11453531413 mp3.cc/m/43026-art/50948413-zaebali-suki/ www.pizdec.net/viewtopic.php?forum_id=4&topic_id... https://zf.fm/song/4542411 https://otvet.mail.ru › Компьютеры, Связь › Интернет www.diary.ru/~you-all-must-die www.graduss.com/m.php?todo=forum_trd&id=2646 forum.wowcircle.com › Форум › Корзина https://muzofond.com/.../napalm%20death%20армия%20извращ... www.jooov.net/.../Napalm_Death-Section_armiya_izvraschentsev...https://www.youtube.com/watch?v=7etu4PqpGdY https://www.youtube.com/watch?v=xpz5SxjBvb4 https://www.youtube.com/watch?v=2zrOzqoM3zo https://www.youtube.com/watch?v=r2hScZc34js https://www.youtube.com/watch?v=plK6sjgti9M https://www.youtube.com/watch?v=SkmUx42oIlc https://de.langenscheidt.com/russisch-deutsch/сука dictionary.reverso.net/russian-english/сука context.reverso.net/translation/russian-english/сука www.russki-mat.net/page.php?l=RuDe&a=сукаlurkmore.to/Копипаста:Зелёный_слоник www.vsebudetzae.biz/ru/diary/?tag=песня&sort=2&offset... nikitich.livejournal.com/1194367.html -
@bigorat said in Помогите с регуляркой:
@santilo, увы, все то же самое :( Хотя Зеннопостеровский регексер прекрасно все вытягивает такой конструкцией
(?<=<a\ target="_blank"\ href=").*?(?=">) и (?<=<img\ border="0"\ src=").*?(?="\ )но не работает в Басе такой код :(
тоже xpath курить придется я думаю, у меня таже байда когда в регулярки прописываю самое короткое совпадение это не катит не фига хотя в зенки все на ура
-
@Zenodrot said in Помогите с регуляркой:
@santilo said in Помогите с регуляркой:
@Zenodrot said in Помогите с регуляркой:
@santilo said in Помогите с регуляркой:
@Zenodrot said in Помогите с регуляркой:
@santilo said in Помогите с регуляркой:
@Zenodrot said in Помогите с регуляркой:
@santilo said in Помогите с регуляркой:
@Zenodrot said in Помогите с регуляркой:
@santilo said in Помогите с регуляркой:
//h3[@class="r"]/a/@href
лишнего зацепляет
/url?q=https://www.1und1.de/&sa=U&ved=0ahUKEwjS8Lu14qPUAhVCVhQKHXCIDCkQFggUMAA&usg=AFQjCNFR960Lmvc8lkENINwAoOLRlyWjHw /url?q=http://www.kicker.de/news/fussball/bundesliga/spieltag/1-bundesliga/2016-17/spieltag.html&sa=U&ved=0ahUKEwjS8Lu14qPUAhVCVhQKHXCIDCkQFggeMAE&usg=AFQjCNE7IdQ5qsd455s6o61kR0LGdDLwPw /url?q=https://de.wikipedia.org/wiki/1&sa=U&ved=0ahUKEwjS8Lu14qPUAhVCVhQKHXCIDCkQFggoMAI&usg=AFQjCNHEf-h216SqyBzeZkowBDzlv5TVBQ /url?q=https://www.zdf.de/filme/herzkino/honigfrauen-100.html&sa=U&ved=0ahUKEwjS8Lu14qPUAhVCVhQKHXCIDCkQFgguMAM&usg=AFQjCNEPRjr35K28Cl4JFyu84vnPP59UNw /url?q=https://www.gesetze-im-internet.de/agg/__1.html&sa=U&ved=0ahUKEwjS8Lu14qPUAhVCVhQKHXCIDCkQFgg0MAQ&usg=AFQjCNGHEI_OtfzlMeQ5X1YPggHs3rD4uw /url?q=https://www.gesetze-im-internet.de/pauswg/__1.html&sa=U&ved=0ahUKEwjS8Lu14qPUAhVCVhQKHXCIDCkQFgg5MAU&usg=AFQjCNFOy54zi6jqgQhTarWoI3tf-Lsyug /url?q=https://www.gesetze-im-internet.de/ustg_1980/__1.html&sa=U&ved=0ahUKEwjS8Lu14qPUAhVCVhQKHXCIDCkQFgg_MAY&usg=AFQjCNFCifMQ23ND-Ccl53NOGz_-W7SP0A /url?q=https://www.gesetze-im-internet.de/gewschg/__1.html&sa=U&ved=0ahUKEwjS8Lu14qPUAhVCVhQKHXCIDCkQFghEMAc&usg=AFQjCNESfh6onCe5NWnRqKAwJGp7d9MxPQ /url?q=https://www.kabeleins.de/&sa=U&ved=0ahUKEwjS8Lu14qPUAhVCVhQKHXCIDCkQFghKMAg&usg=AFQjCNFBMdyA_LjiVFHFTzbLn9lDiMssCA /url?q=https://dejure.org/gesetze/KSchG/1.html&sa=U&ved=0ahUKEwjS8Lu14qPUAhVCVhQKHXCIDCkQFghPMAk&usg=AFQjCNFPanhB7IuumcWHMhiPMj6vZLUPSAПеред get запросом ты установил юзер агент?)
да сори, с ним все нормально пошло, сеенкс = )
кстати) можешь попробовать применить свою регулярку, может она теперь нормально будет ссылки парсить, без лишнего мусора) только перед get запросом также установи заголовок)
врядли работать будет, в конструкторе то неробит )
получаться что без агента гугл выдает другую разметку? так что ли понимать разницу в xpath?да, разметка чуть другая) без юзер агента, из за этого 2 xpath запрос парсил ссылки с мусором), а 1 запрос //cite он изначально не очень подходил) в нем не всегда полные адреса
благодарка огромное тебе друже, какой раз уже выручил.
Да без проблем, мне сложно помочь, если это в моих силах
гугл не победить ска )
дичь выдает, иногда зацепает кроме ссылок левый текст
russisch.urz.uni-leipzig.de/online-woerterbuch/ruw.htm?...падла%20(о%20человеке) https://slovar.cc › ... › Словарь воровского жаргона www.russki-mat.net/page.php?l=RuDe&a=падла,%20падло https://sozdik.kz/ru/dictionary/translate/ru/kk/падла/ os.colta.ru/music_modern/projects/8468/details/9827/ www.morfologija.ru/словоформа/падлаhttps://ok.ru/video/11453531413 mp3.cc/m/43026-art/50948413-zaebali-suki/ www.pizdec.net/viewtopic.php?forum_id=4&topic_id... https://zf.fm/song/4542411 https://otvet.mail.ru › Компьютеры, Связь › Интернет www.diary.ru/~you-all-must-die www.graduss.com/m.php?todo=forum_trd&id=2646 forum.wowcircle.com › Форум › Корзина https://muzofond.com/.../napalm%20death%20армия%20извращ... www.jooov.net/.../Napalm_Death-Section_armiya_izvraschentsev...https://www.youtube.com/watch?v=7etu4PqpGdY https://www.youtube.com/watch?v=xpz5SxjBvb4 https://www.youtube.com/watch?v=2zrOzqoM3zo https://www.youtube.com/watch?v=r2hScZc34js https://www.youtube.com/watch?v=plK6sjgti9M https://www.youtube.com/watch?v=SkmUx42oIlc https://de.langenscheidt.com/russisch-deutsch/сука dictionary.reverso.net/russian-english/сука context.reverso.net/translation/russian-english/сука www.russki-mat.net/page.php?l=RuDe&a=сукаlurkmore.to/Копипаста:Зелёный_слоник www.vsebudetzae.biz/ru/diary/?tag=песня&sort=2&offset... nikitich.livejournal.com/1194367.htmlхм) гугл хитрожопый, не дает спокойно себя парсить, я даже не знаю что сделать( регулярку я тебе не подскажу, так как особо не шарю в них, может другие ребята подскажут
-
@santilo said in Помогите с регуляркой:
@Zenodrot said in Помогите с регуляркой:
@santilo said in Помогите с регуляркой:
@Zenodrot said in Помогите с регуляркой:
@santilo said in Помогите с регуляркой:
@Zenodrot said in Помогите с регуляркой:
@santilo said in Помогите с регуляркой:
@Zenodrot said in Помогите с регуляркой:
@santilo said in Помогите с регуляркой:
@Zenodrot said in Помогите с регуляркой:
@santilo said in Помогите с регуляркой:
//h3[@class="r"]/a/@href
лишнего зацепляет
/url?q=https://www.1und1.de/&sa=U&ved=0ahUKEwjS8Lu14qPUAhVCVhQKHXCIDCkQFggUMAA&usg=AFQjCNFR960Lmvc8lkENINwAoOLRlyWjHw /url?q=http://www.kicker.de/news/fussball/bundesliga/spieltag/1-bundesliga/2016-17/spieltag.html&sa=U&ved=0ahUKEwjS8Lu14qPUAhVCVhQKHXCIDCkQFggeMAE&usg=AFQjCNE7IdQ5qsd455s6o61kR0LGdDLwPw /url?q=https://de.wikipedia.org/wiki/1&sa=U&ved=0ahUKEwjS8Lu14qPUAhVCVhQKHXCIDCkQFggoMAI&usg=AFQjCNHEf-h216SqyBzeZkowBDzlv5TVBQ /url?q=https://www.zdf.de/filme/herzkino/honigfrauen-100.html&sa=U&ved=0ahUKEwjS8Lu14qPUAhVCVhQKHXCIDCkQFgguMAM&usg=AFQjCNEPRjr35K28Cl4JFyu84vnPP59UNw /url?q=https://www.gesetze-im-internet.de/agg/__1.html&sa=U&ved=0ahUKEwjS8Lu14qPUAhVCVhQKHXCIDCkQFgg0MAQ&usg=AFQjCNGHEI_OtfzlMeQ5X1YPggHs3rD4uw /url?q=https://www.gesetze-im-internet.de/pauswg/__1.html&sa=U&ved=0ahUKEwjS8Lu14qPUAhVCVhQKHXCIDCkQFgg5MAU&usg=AFQjCNFOy54zi6jqgQhTarWoI3tf-Lsyug /url?q=https://www.gesetze-im-internet.de/ustg_1980/__1.html&sa=U&ved=0ahUKEwjS8Lu14qPUAhVCVhQKHXCIDCkQFgg_MAY&usg=AFQjCNFCifMQ23ND-Ccl53NOGz_-W7SP0A /url?q=https://www.gesetze-im-internet.de/gewschg/__1.html&sa=U&ved=0ahUKEwjS8Lu14qPUAhVCVhQKHXCIDCkQFghEMAc&usg=AFQjCNESfh6onCe5NWnRqKAwJGp7d9MxPQ /url?q=https://www.kabeleins.de/&sa=U&ved=0ahUKEwjS8Lu14qPUAhVCVhQKHXCIDCkQFghKMAg&usg=AFQjCNFBMdyA_LjiVFHFTzbLn9lDiMssCA /url?q=https://dejure.org/gesetze/KSchG/1.html&sa=U&ved=0ahUKEwjS8Lu14qPUAhVCVhQKHXCIDCkQFghPMAk&usg=AFQjCNFPanhB7IuumcWHMhiPMj6vZLUPSAПеред get запросом ты установил юзер агент?)
да сори, с ним все нормально пошло, сеенкс = )
кстати) можешь попробовать применить свою регулярку, может она теперь нормально будет ссылки парсить, без лишнего мусора) только перед get запросом также установи заголовок)
врядли работать будет, в конструкторе то неробит )
получаться что без агента гугл выдает другую разметку? так что ли понимать разницу в xpath?да, разметка чуть другая) без юзер агента, из за этого 2 xpath запрос парсил ссылки с мусором), а 1 запрос //cite он изначально не очень подходил) в нем не всегда полные адреса
благодарка огромное тебе друже, какой раз уже выручил.
Да без проблем, мне сложно помочь, если это в моих силах
гугл не победить ска )
дичь выдает, иногда зацепает кроме ссылок левый текст
russisch.urz.uni-leipzig.de/online-woerterbuch/ruw.htm?...падла%20(о%20человеке) https://slovar.cc › ... › Словарь воровского жаргона www.russki-mat.net/page.php?l=RuDe&a=падла,%20падло https://sozdik.kz/ru/dictionary/translate/ru/kk/падла/ os.colta.ru/music_modern/projects/8468/details/9827/ www.morfologija.ru/словоформа/падлаhttps://ok.ru/video/11453531413 mp3.cc/m/43026-art/50948413-zaebali-suki/ www.pizdec.net/viewtopic.php?forum_id=4&topic_id... https://zf.fm/song/4542411 https://otvet.mail.ru › Компьютеры, Связь › Интернет www.diary.ru/~you-all-must-die www.graduss.com/m.php?todo=forum_trd&id=2646 forum.wowcircle.com › Форум › Корзина https://muzofond.com/.../napalm%20death%20армия%20извращ... www.jooov.net/.../Napalm_Death-Section_armiya_izvraschentsev...https://www.youtube.com/watch?v=7etu4PqpGdY https://www.youtube.com/watch?v=xpz5SxjBvb4 https://www.youtube.com/watch?v=2zrOzqoM3zo https://www.youtube.com/watch?v=r2hScZc34js https://www.youtube.com/watch?v=plK6sjgti9M https://www.youtube.com/watch?v=SkmUx42oIlc https://de.langenscheidt.com/russisch-deutsch/сука dictionary.reverso.net/russian-english/сука context.reverso.net/translation/russian-english/сука www.russki-mat.net/page.php?l=RuDe&a=сукаlurkmore.to/Копипаста:Зелёный_слоник www.vsebudetzae.biz/ru/diary/?tag=песня&sort=2&offset... nikitich.livejournal.com/1194367.htmlхм) гугл хитрожопый, не дает спокойно себя парсить, я даже не знаю что сделать( регулярку я тебе не подскажу, так как особо не шарю в них, может другие ребята подскажут
Хах придется брать запросом текст, отдавать зенке на корм
зенка парсит складывает в урлы
профит
))
но такой костыль не камельфо
ждем помоши...сделал многопоток через циклы норма все с урлами, но хочется все ж по реше парсить без бразера
-
@Zenodrot said in Помогите с регуляркой:
@santilo said in Помогите с регуляркой:
@Zenodrot said in Помогите с регуляркой:
@santilo said in Помогите с регуляркой:
@Zenodrot said in Помогите с регуляркой:
@santilo said in Помогите с регуляркой:
@Zenodrot said in Помогите с регуляркой:
@santilo said in Помогите с регуляркой:
@Zenodrot said in Помогите с регуляркой:
@santilo said in Помогите с регуляркой:
@Zenodrot said in Помогите с регуляркой:
@santilo said in Помогите с регуляркой:
//h3[@class="r"]/a/@href
лишнего зацепляет
/url?q=https://www.1und1.de/&sa=U&ved=0ahUKEwjS8Lu14qPUAhVCVhQKHXCIDCkQFggUMAA&usg=AFQjCNFR960Lmvc8lkENINwAoOLRlyWjHw /url?q=http://www.kicker.de/news/fussball/bundesliga/spieltag/1-bundesliga/2016-17/spieltag.html&sa=U&ved=0ahUKEwjS8Lu14qPUAhVCVhQKHXCIDCkQFggeMAE&usg=AFQjCNE7IdQ5qsd455s6o61kR0LGdDLwPw /url?q=https://de.wikipedia.org/wiki/1&sa=U&ved=0ahUKEwjS8Lu14qPUAhVCVhQKHXCIDCkQFggoMAI&usg=AFQjCNHEf-h216SqyBzeZkowBDzlv5TVBQ /url?q=https://www.zdf.de/filme/herzkino/honigfrauen-100.html&sa=U&ved=0ahUKEwjS8Lu14qPUAhVCVhQKHXCIDCkQFgguMAM&usg=AFQjCNEPRjr35K28Cl4JFyu84vnPP59UNw /url?q=https://www.gesetze-im-internet.de/agg/__1.html&sa=U&ved=0ahUKEwjS8Lu14qPUAhVCVhQKHXCIDCkQFgg0MAQ&usg=AFQjCNGHEI_OtfzlMeQ5X1YPggHs3rD4uw /url?q=https://www.gesetze-im-internet.de/pauswg/__1.html&sa=U&ved=0ahUKEwjS8Lu14qPUAhVCVhQKHXCIDCkQFgg5MAU&usg=AFQjCNFOy54zi6jqgQhTarWoI3tf-Lsyug /url?q=https://www.gesetze-im-internet.de/ustg_1980/__1.html&sa=U&ved=0ahUKEwjS8Lu14qPUAhVCVhQKHXCIDCkQFgg_MAY&usg=AFQjCNFCifMQ23ND-Ccl53NOGz_-W7SP0A /url?q=https://www.gesetze-im-internet.de/gewschg/__1.html&sa=U&ved=0ahUKEwjS8Lu14qPUAhVCVhQKHXCIDCkQFghEMAc&usg=AFQjCNESfh6onCe5NWnRqKAwJGp7d9MxPQ /url?q=https://www.kabeleins.de/&sa=U&ved=0ahUKEwjS8Lu14qPUAhVCVhQKHXCIDCkQFghKMAg&usg=AFQjCNFBMdyA_LjiVFHFTzbLn9lDiMssCA /url?q=https://dejure.org/gesetze/KSchG/1.html&sa=U&ved=0ahUKEwjS8Lu14qPUAhVCVhQKHXCIDCkQFghPMAk&usg=AFQjCNFPanhB7IuumcWHMhiPMj6vZLUPSAПеред get запросом ты установил юзер агент?)
да сори, с ним все нормально пошло, сеенкс = )
кстати) можешь попробовать применить свою регулярку, может она теперь нормально будет ссылки парсить, без лишнего мусора) только перед get запросом также установи заголовок)
врядли работать будет, в конструкторе то неробит )
получаться что без агента гугл выдает другую разметку? так что ли понимать разницу в xpath?да, разметка чуть другая) без юзер агента, из за этого 2 xpath запрос парсил ссылки с мусором), а 1 запрос //cite он изначально не очень подходил) в нем не всегда полные адреса
благодарка огромное тебе друже, какой раз уже выручил.
Да без проблем, мне сложно помочь, если это в моих силах
гугл не победить ска )
дичь выдает, иногда зацепает кроме ссылок левый текст
russisch.urz.uni-leipzig.de/online-woerterbuch/ruw.htm?...падла%20(о%20человеке) https://slovar.cc › ... › Словарь воровского жаргона www.russki-mat.net/page.php?l=RuDe&a=падла,%20падло https://sozdik.kz/ru/dictionary/translate/ru/kk/падла/ os.colta.ru/music_modern/projects/8468/details/9827/ www.morfologija.ru/словоформа/падлаhttps://ok.ru/video/11453531413 mp3.cc/m/43026-art/50948413-zaebali-suki/ www.pizdec.net/viewtopic.php?forum_id=4&topic_id... https://zf.fm/song/4542411 https://otvet.mail.ru › Компьютеры, Связь › Интернет www.diary.ru/~you-all-must-die www.graduss.com/m.php?todo=forum_trd&id=2646 forum.wowcircle.com › Форум › Корзина https://muzofond.com/.../napalm%20death%20армия%20извращ... www.jooov.net/.../Napalm_Death-Section_armiya_izvraschentsev...https://www.youtube.com/watch?v=7etu4PqpGdY https://www.youtube.com/watch?v=xpz5SxjBvb4 https://www.youtube.com/watch?v=2zrOzqoM3zo https://www.youtube.com/watch?v=r2hScZc34js https://www.youtube.com/watch?v=plK6sjgti9M https://www.youtube.com/watch?v=SkmUx42oIlc https://de.langenscheidt.com/russisch-deutsch/сука dictionary.reverso.net/russian-english/сука context.reverso.net/translation/russian-english/сука www.russki-mat.net/page.php?l=RuDe&a=сукаlurkmore.to/Копипаста:Зелёный_слоник www.vsebudetzae.biz/ru/diary/?tag=песня&sort=2&offset... nikitich.livejournal.com/1194367.htmlхм) гугл хитрожопый, не дает спокойно себя парсить, я даже не знаю что сделать( регулярку я тебе не подскажу, так как особо не шарю в них, может другие ребята подскажут
Хах придется брать запросом текст, отдавать зенке на корм
зенка парсит складывает в урлы
профит
))
но такой костыль не камельфо
ждем помоши...сделал многопоток через циклы норма все с урлами, но хочется все ж по реше парсить без бразера
Это да) на гет запросах парсер нужно делать, так как потребления ресурсов в разы меньше)
-
@bigorat said in Помогите с регуляркой:
@santilo, увы, все то же самое :( Хотя Зеннопостеровский регексер прекрасно все вытягивает такой конструкцией
(?<=<a\ target="_blank"\ href=").*?(?=">) и (?<=<img\ border="0"\ src=").*?(?="\ )но не работает в Басе такой код :(
слушай а такие регулярки если попробовать
<img\ border="0"\ src="(.*?)" и <a\ target="_blank"\ href="(.*?)">

