Случайный ответ на проблему privacy

Если IBM права, то в будущем ваш возраст в корпоративной базе данных может быть указан как 157, а доход — как квадратный корень из двух.

Big Blue экспериментирует с идеей записи информации о клиентской базе по методу рэндомизации данных. При этом предлагается защищать тайну частной информации потребителей путем маскирования таких данных, как доход, возраст, предыдущие покупки или медицинская информация, посредством необратимых математических операций.

Например, если при регистрации в онлайновом магазине покупатель указывает свой возраст как 38, модуль рэндомизации в его браузере добавит к этому числу любое число от минус 25 до 112 и результат отправит на сервер.

Фокус в том, что на том конце компьютеры, обработав эти зашифрованные данные, смогут нарисовать общую картину по всем покупателям. Истинный возраст 38-летнего посетителя установить не удастся, зато онлайновый магазин сможет достаточно точно определить, насколько популярна его служба среди 38-летних. Впоследствии незашифрованные данные, собранные компанией, — такие как стоимость купленного посетителем автомобиля и дата покупки — тоже могут быть рэндомизированы.

«Лежащая в основе этого метода идея в каком-то смысле является ересью для вычислительной техники. Принято считать, что чем информация точнее, тем лучше, — говорит старший специалист IBM Ракеш Агравал, который руководит этим проектом. — А здесь мы говорим: „У вас слишком качественная информация, и мы, чтобы сохранить privacy, исказим ее или внесем в нее ошибки”».

Рэндомизация данных кажется мне полезной в двух отношениях. Во-первых, это хорошее напоминание о том, зачем существуют крупные компании. Чтобы нанимать математических гениев и лучших в мире химиков, которые, в свою очередь, строят общество завтрашнего дня. Без них колесо так и осталось бы вершиной научной мысли.

Во-вторых, она позволяет сгладить наболевший конфликт вокруг защиты privacy. Большое — и, кажется, постоянно растущее — число потребителей приходит в ярость от того, что компании и организации собирают, продают и передают данные об их персонах.

На самом деле большая часть собранных данных никогда не будет использоваться в неправедных целях. По электронным следам, оставленным картой для банкомата, действительно можно проследить вашу жизнь, но вряд ли агенты ФБР прямо сейчас сидят и копаются в вашем файле, размышляя: „За прошлый месяц он три раза поел в Сarl's Jr. Можно ли рассчитывать, что он появится там опять в ближайшие пять дней?”»

И все же потребители негодуют, и Федеральная торговая комиссия сделала защиту тайны персональной информации потребителей своим наивысшим приоритетом. Чтобы помешать сбору информации, люди часто лгут, но это на самом деле не помогает. Компании все равно могут восстановить общую картину. «Ложь мало что дает, — говорит Агравал. — Люди все равно оставляют следы, говорящие о многом».

Система рэндомизации основана на определении соотношения между разными значениями параметра посредством байесовской вероятности. Потребители указывают истинные данные о себе, которые перед отправкой рэндомизируются. В компании серверы пытаются определить, какой способ рэндомизации использовался, чтобы вернуть оригинальные значения. «По существу, мы задаем следующий вопрос: „Что могло привести к данному искажению?”», — поясняет Агравал.

Если компьютеру удастся выявить вероятный метод рэндомизации — например, прибавление случайного числа в интервале от 17 до 87 или вычитание чисел в интервале от 8 до 32, — то можно построить график, в точности повторяющий тот, который соответствует истинной клиентской базе. В ходе нескольких проведенных ограниченных испытаний восстановленная кривая отличалась от кривой, построенной по оригинальным данным, на 2-3%.

«Первоначальное распределение всегда восстанавливается. В этом красота математики, хорошо это или плохо, — говорит Агравал. — Главное преимущество метода в том, что он позволяет строить хорошие модели, не имея доступа к точной информации».

IBM продолжает испытания своей технологии, но Агравал уже видит некоторые области применения, где она может принести плоды. Крупные предприятия, такие как компании по прокату автомашин, могут собирать данные о клиентах без риска их огласки. Клиники могут предоставлять доступ к историям болезней при вспышке гепатита, не опасаясь суда. Да и последствия проникновения в сети становятся менее опасными.

Наконец, заполняя анкету в Home Depot, вы больше не будете чувствовать неловкость, указывая, что у вас 16 кухонь.

Обсуждение и комментарии

	xacid 25 Nov 2004 6:52 PM
IBM respect!

	Alexander S. 25 Nov 2004 8:34 PM
Метод рэндомизации гарантированно защищает вашу privacy, если к вашим данным добавляется случайно выбранное число в интервале от минус бесконечности до плюс бесконечности.

	geor 26 Nov 2004 12:43 AM
супер !

	AT - 220220pager.icq.com 26 Nov 2004 10:28 AM
Мде ... Все это работает только на больших обьемах данных. Если у вас всего 5000-10000 клиентов - то вся эта история не сработает даже на простом вопрос - какой средний возвраст покупателя. Еще хуже это будет работать если зависимости искать надо будет - например зависимость от возвраста того что человек покупает или сколько тратит. Забудьте про privacy - главное не скрывать информацию о себе - а то как она исспользуеться. К примеру не будем далеко ходить - на прошелой неделе мой банк опубликовал информацию обо мне на своем сайте - даже не предупредив меня. Ничего такого плохого обо мне не было написанно - но сам факт что не смотря на закон о банковской тайне - мое имя в своих рекламных целях исспользуют. Вот это не хорошо. А банк просто по любому должен хранить информацию о том какие я операции проводил. Вариант - с случайным добавлением числа от -10000 USD до +20000 USD меня не устроит ;-) Равно как и удаление информации о моих операциях - выписка мне может потребоваться за любой период. Так что такой метод не понимаю кому нужен. Научитесь исспользовать информацию правильно - и не надо ничего будет рандомизировать. Плюс меня весьма интересует вопрос откуда они случайные числа брать будут - если из псевдогенератора - то это не вопрос :-))

	dk 26 Nov 2004 10:28 AM
Интересно, кто станет гарантом рандомизации? Получатель информации? Это невыгодно, ведь потом все равно нужно будет попытаться восстанавить исходные данные.

	dk 26 Nov 2004 11:09 AM
"Фокус в том, что на том конце компьютеры, обработав эти зашифрованные данные, смогут нарисовать общую картину по всем покупателям. Истинный возраст 38-летнего посетителя установить не удастся, зато онлайновый магазин сможет достаточно точно определить, насколько популярна его служба среди 38-летних. " а вот это уже непонятно. т.е. все кто ввел 38 после рандомизации получат одно и то же число? Тогда простым перебором возраста от 1 до 100 получаем таблицу соответствия и легко вычисляем истинный возраст :(

	geor 26 Nov 2004 11:20 AM
фишка в том что многие компании боятся передавать инфо о своих клиентах третьим лицам ... однако если речь идет о финансовых услугах (например инкассо) то тут как бы важен точный счет :(

	hreh 27 Nov 2004 3:23 AM
> т.е. все кто ввел 38 после рандомизации получат одно и то же число? разные 4 ex-le: age+rand(100)

	Anti-MS 28 Nov 2004 11:23 AM
Просто и красиво.

	alex - Allex-77mail.ru 29 Nov 2004 6:16 AM
А кто вообще в формы онлайновых магазинов свои данные вносит, кроме адреса доставки? Лично я - никогда:-)

	dk 29 Nov 2004 11:43 AM
2(hreh) Как же тогда: "точно определить, насколько популярна его служба среди 38-летних"?

	torvic 29 Nov 2004 2:29 PM
Это конечно вариант, но не панацея, поскольку применим к данным, допускающим стат. обработку. То же самое можно сделать, например, требуя указать не возраст, а возрастной интервал. Для информации типа: номер кред.карты, почт.адрес, е-майл ... которая как раз и наиболее интересна - не подходит.

	ms 30 Nov 2004 10:52 PM
При таком подходе все современные методы Data Mining будут давать неприемлемую ошибку. Например если захотим определить ассоциацию 38 лет и доход 600 баксов и т.п. В реальном исследовании одними вариационными рядами никто не ограничивается. Надо и кластеризовать, и деревья строить а потом еще прогнозировать и модели строить. Короче для серьезного исследования точнось и полезность данных теряется.

	нц 3 Dec 2004 6:23 PM
даже так.. чем интересно 38 летние отличаются от 37 летних, что именно по ним надо проводить исследование? или с помощью этого метода какраз произойдет нивелирование до определенной группы...

← октябрь 2004

21 22 23 24 25 26 27 28 29

декабрь 2004 →