Я в настоящее время выполняю некоторых жемчуг и сценарии Python на ПК окон и хотел бы портировать на серверы Amazon EC2, запускающие 64-разрядный LINUX. Сценарии являются основными веб-скребками, которые переходят ко множеству веб-сайтов, получают данные и затем сохраняют ежедневно как файлы CSV.
Я хотел бы установить их в облаке и получить их работающий автоматизированным способом так, чтобы они работали без моего вмешательства. Также, учитывая, что я не хочу терять все данные, если экземпляр отказывает, я должен также загрузить файлы CSV на Amazon S3.
Какая-либо идея, как я могу сделать это? Я не являюсь ужасно сведущим в LINUX, и при этом я не знаю Perl/Python хорошо. Каков лучший способ для меня заняться thi
Если бы все, что Вы делаете, очищает веб-сайты, я предложил бы альтернативное решение:
Не используйте Amazon EC2. EC2 требует уровня квалификации вне просто способности администрировать операционную систему стиля Unix. EC2 также предполагает, что можно обработать ситуации собой, нет никого для выручки Вас. Я понимаю, что в настоящее время EC2 свободен к новым регистрациям для людей, но Вы поражаете отделочный гвоздь пневматическим отбойным молотком.
Вместо этого используйте общую услугу веб-хостинга, которая поддерживает жемчуг, описанные по полезному http://perlsharedhosting.com/ были бы хороши. Общие поставщики услуг хостинга перечислили, там являются все относительно дешевыми (<$10/месяцев) и дают Вам возможность использовать CPAN. Таким образом, у Вас есть кто-то еще взволнованный по поводу серверной операционной системы, и Вы только волнуетесь о своих сценариях. Затем узнайте об использовании Unix crontab, чтобы запустить Ваш скрипт в расписании или изучить что-то как POE, или AnyEvent для создания скребка сервисом (ищите CPAN последние два).
Что касается устройства хранения данных, можно купить резервный пакет для общего хостинга, и у Вас должно быть много бесплатного хранения с Вашим пакетом (обычно по крайней мере 10 ГБ). Если необходимо скопировать к S3 по некоторой определенной причине, можно сделать это также, существуют даже модули жемчуга на CPAN для помощи с этим. Для бонусных очков я предлагаю, чтобы Вы исследовали Танцора или Катализатор, чтобы сделать Ваши очистки доступными от веб-браузера и изучить жемчуг webdev в процессе. Следует иметь в виду, что они совместно использовали пакеты хостинга, часто включают неограниченную передачу и почти неограниченное хранение, EC2 не включает эти вещи.
Если совместно использовано хостинг не будет работать, и Вы хотите потратить больше денег, я предлагаю linode.com в качестве промежуточного шага. Вы ответственны за свою установку Linux, но у Вас есть больше резервного копирования поддержки, чем Вы были бы с EC2.
Нижняя строка - то, что EC2/S3 являются ОЧЕНЬ полезными инструментами, но они действительно только для производственных развертываний или очень серьезных людей, у которых был опыт с производственными развертываниями. Поскольку это кажется, что у Вас нет этого опыта, я настоятельно рекомендовал бы, чтобы Вы пошли другим путем.
Удачи.
Я не знаю, является ли EC2 правильным инструментом для задания. Возможно, взгляните на http://www.picloud.com/, это в основном позволяет Вам просто выполнять отдельные методы в Облаке.
Если Вы на самом деле хотите данные в S3, загружение на S3 имеет смысл. Если Ваша цель состоит в том, чтобы только сохранить существующие данные, альтернатива использует Эластичную Блочную систему хранения Amazon для имения персистентного подсоединенного внешнего диска в наличии.
Вы могли использовать одно из Приложений управления облаком, чтобы или сделать это для Вас через UI или отправить запрос поддержки, чтобы заставить системного администратора делать это для Вас - если Вы хотите использовать AWS, который является. Проверьте cloudkick.com и http://digitalmines.com (правовая оговорка: Я работаю в Цифровых Шахтах).