Только для PRO

Парсинг выдачи Яндекса на 100+ тыс. запросов

Аватар

Maksim P.S

PRO 7.0


Требуется спарсить с Яндекса результаты выдачи по большому количеству запросов (100 тыс., список приложен) и особому условию (офисные файлы). Глубина поиска максимально возможная, до последней страницы с результатами. На выходе должен получится csv в реестр формате URL;Название;Описание;Запрос;Типфайла где: url – адрес найденной страницы с файлом соответствующего типа Название – заголовок этого файла из снипета Описание – описание из снипета Запрос – запрос, по которому был найден файл. Тип файла – тип офисного файла из колонки расширенного поиска Яндекса Пример Реестра: bmstu#рекламма#/files/First_letter.docx; Положение; Организация и проведение МГТУ им. Н.Э. Баумана мероприятий для учащихся;МГТУ;doc Поиск должен вестись по следующим типам файлов из расширенного поиска: Текст.doc (соответствует расширениям .doc, .docx) mime=doc Слайды.ppt (соответствует расширениям .ppt, .pptx) mime=ppt Документ.pdf (соответствует расширению .ppt) mime=pdf Каждый запрос следует парсить раздельно, т.е. по очереди. Список из запросов придется проходить для каждого запроса, т.е. слать 100 тыс. * 3 и далее по кол-ву найденных страниц. По результатам поиска получается сырой список, который может содержать ссылки на одни и те же страницы по разным результатам. Его следует очистить от дубликатов, т.е. оставить строго по одной уникальной ссылке. На выходе заказчику предоставляется 2 списка сырой и итоговый. С исполнителем, успешно справившемся с заданием, будет продолжено сотрудничество по парсингу следующих партий запросов. Строго постоплата, за половину от задания и по факту завершения. Также возможна сделка без риска.

Категория : Программирование

Россия Свердловская обл. Екатеринбург

Дата: 15.02.2018 15:54


Вы не можете оставлять предложения по данному проекту, так как он доступен только для пользователей с PRO-аккаунтом. Чтобы снять это ограничение, воспользуйтесь услугой PRO-аккаунт.

Предложения фрилансеров (3)


Оставлять свои предложения по проекту могут только зарегистрированные пользователи с аккаунтом специалиста.
Зарегистрируйтесь или войдите на сайт под своим именем.