программные инструменты для чистки грязных данных (плоские файлы, Excel и т.д.) полуавтоматически?

Я обычно получаю файлы, обычно электронные таблицы Excel, которые содержат вручную вводимые данные, которые переросли утилиту электронных таблиц. Я затем очищаю эти файлы для импорта в базу данных.

это иногда легко, иногда кропотливо, в зависимости от того, насколько "чистый" данные.

например, что-то как:

Name            Age     Phone #
J Smith         31 yo   8019219210
Smith, Mary Alice  43     (203) 456-7788

Я перевожу в:

First_Name  Middle_Name Last_Name      Age  Phone_Number
J            NULL        Smith          31   801-921-9210
Mary          Alice       Smith          43   203-456-7788

Я действительно любил бы некоторое программное обеспечение, которое помогает мне установить параметры для того, на что каждый столбец "должен быть похожим", автоматически флаговые значения, которые являются подозреваемым, и разрешают мне циклически повторяться через них для создания редактирований по мере необходимости.

Кто-либо знает, существует ли программное обеспечение как это? Я должен предположить, что это делает, но я понятия не имею, как начать находить его.

Я также открыт для стандартных рабочих процедур, что справка достигает того же вида задачи эффективно.

Спасибо!

2
задан 30.09.2010, 20:54

2 ответа

вскоре после того, как я отправил это, Google выпустил Google Refine, который, кажется, имеет все функции, которые я воображал, и затем некоторые.

http://code.google.com/p/google-refine/

Я разобрался в новом задании, когда я узнал о, совершенствовали, или я, конечно, испытал бы его на некоторых реальных данных. в данный момент я не использовал его сам, таким образом, я не могу прокомментировать его качество - но то демонстрационное видео сдуло меня, и это, конечно, кажется, утилита, которую я искал, когда я отправил этот вопрос.

если Вы использовали его, и это полезно, проголосуйте за этот ответ. если это получит пару голосов, то я выберу этот ответ.

4
ответ дан 08.12.2019, 06:31

Если Ваше расположение столбца в файлах, которые Вы получаете, полупоследовательно, Вы могли бы, вероятно, записать макрос, чтобы сделать больше всего все. Разделите имя (с правилами для идентификации В последний раз сопровождаемого запятой и т.д.), сделайте Возраст числом, отформатируйте телефон.

У Вас мог даже быть он цикл через и когда в сомнении условно форматируют строку для дальнейшего внимания.

0
ответ дан 08.12.2019, 06:31

Теги

Похожие вопросы