本文总结了「国家层面」出台的各项数据脱敏标准指南,旨在为大家提供一份全面、系统的参考资料,便于大家更好地了解和应用相关数据脱敏标准。
GB/T 37964-2019
《信息安全技术个人信息去标识化指南》
在大数据、云计算、万物互联的时代,基于数据的应用日益广泛,同时也带来了巨大的个人信息安全问题。为了保护个人信息安全,同时促进数据的共享使用,特制定个人信息去标识化指南标准。
去标识化:通过对个人信息的技术处理,使其在不借助额外信息的情况下,无法识别个人信息主体的过程。
一、常用去标识化技术
二、常见标识符的去标识化参考
GB/T 42460-2023
《信息安全技术个人信息去标识化效果评估指南》
本文件提供了个人信息去标识化效果分级与评估的指南。
本文件适用于个人信息去标识化活动,也适用于开展个人信息安全管理、监管和评估。
一、个人信息去标识化效果评估流程
1.评估准备
a)确定待评估的数据集。
b)确定数据集使用的环境,包括业务场景、组织、人员、系统、已有其他数据等。
c)组建评估团队,包括个人信息保护合规专家、去标识化技术专家、相关业务专家等。
d)开展前期调研,包括数据使用环境的详细调研。
e)确定评估依据,包括相关的法律法规标准等。
f)确定重标识风险计算方案及可接受风险阈值。
g)制定评估方案。
2、定性评估
a)按照GB/T 37964 2019中的识别标识符,并形成标识符清单;
b)判断数据集是否包含标识符清单中的标识符,如果不包含任何标识符,评为4级,评估结束,否则继续;
c)判断数据集是否消除了标识符清单中的直接标识符,如果含有清单中的直接标识符,评为1级,评估结束,否则进一步 进行定量评估。
3、定量评估
a)定量计算重标识风险,按照确定的重标识风险计算方案进行重标识风險计算;
b)比较计算得到的重标识风险结果与可接受风险图值,如果重标识风险结果小于可接受风险阈值,评为3级,否则评为2级,评估结束。
4、形成评估结论
a)结合定性评估与定量评估结果,形成去标识化效果分级结论;
b)结论获得管理层批准。
5.沟通与协商
a)数据共享目的和数据共享环境的理解确认;
b)重大的数据环境变更通知机制的建立;
c)关于重标识风险度量的相互交流信息和意见;
d)相关方已表达的对重标识风险的意见;定期/不定期重新评估的计划。
6.评估过程文档管理
a)评估过程文档包括评估过程中依据、参考和产生的过程文档与结果文档;
b)文档的管理包括标识、存储、保护、检索以及处置分发等。
二、个人信息去标识化效果分级
基于数据是否能直接识别个人信息主体,或能以多大概率识别个人信息主体,个人信息标识度分级划分为4级,详见下表,用于区分个人信息去标识化效果。
《信息安全技术 个人信息去标识化效果分级评估规范》
本文件提出了个人信息标识度分级和评定方法。
本文件适用于个人信息去标识化活动,也适用于开展对上管理、监管和评估。
一、标识度分级
1、1级(能直接识别主体的数据)
包含直接标识符(例如:姓名、手机号、身份证号等)的数据,在特定环境下能直接识别个人信息主体。
2、2级(消除直接标识符的数据)
删除了直接标识符,但包含准标识符的数据。例如:包含了性别、生日、民族这些可关联识别个人信息主体的信息。或者对直接标识符进行了处理(例如:泛化、抑制等),使其不再能直接(单独)标识个人身份。例如:常见的身份证号码或者手机号码将部分位段标“*”处理,已转化为准标识符。并且重标识风险高于设定阈值的数据。重标识风险按照5.2计算。重标识风险阈值建议设定为0.05。
3、3级(重标识风险可接受数据)
消除了直接标识符,且重标识风险低于设定阈值的数据。重标识风险按照相关方法计算。重标识风险阈值建议设定为0.05。
4、4级(聚合数据)
对数据进行汇总分析得出的聚合数据,不再包含个例数据。例如总计数、最大值、最小值、平均值等。
二、个人信息去标识化效果评定流程
YD_ T 3806-2020
《电信大数据平台数据脱敏实施方法》
本标准规定了电信大数据平台数据脱敏的指导原则、典型流程,对不同场景下的脱敏实施方法、脱敏算法选择给出了建议。
本标准适用于电信大数据平台、安全管控平台中的数据脱敏。
一、数据脱敏典型场景
1、用户访问生产环境中的数据
2、数据从生产环境导出到测试环境
3、数据从生产环境导出到租户环境
数据从生产环境导出到租户环境时,一般是用于统计分析和数据挖掘。为防止敏感数据泄漏,在满足租户业务需求的前提下,只提供保持最小化数据特性的脱敏数据。因为脱敏操作发生在数据批量迁移时,基于性能和可落地性的考虑,通常使用静态脱敏方式。
4、运维人员访问生产环境中的数据
运维人员访问生产环境中的数据是为了验证平台或业务的正常运行,不需要获取真实的敏感数据。为防止敏感数据泄漏,只需提供为运维人员脱敏后的数据。由于访问业务系统时效性要求较高,推荐采用动态脱敏方式。
本场景中,应采用不可逆脱敏算法对数据进行脱敏展示,防止运维人员接触敏感信息。
5、景点人流量统计分析
在此场景下,以手机号及位置信息为维度进行数据统计,需要对手机号数量进行统计,因此对手机号的脱敏处理要保持数据格式,以及保持每个手机号的唯一性。 由于统计有时效性要求,且需要分时段分析,因此时间的处理需保持原有数据格式、保持原有频率分布。
二、算法选择建议
数据脱敏算法是实现敏感数据脱敏的关键,常用的数据脱敏算法包括加密,格式保留算法(FPE)、重排等可逆算法以及关系映射、偏移取整、散列、随机替换、常量替换、截断、掩码、泛化等不可逆算法,以及面向发布数据的k-匿名、差分隐私。
不同脱敏算法适用的数据类型和脱敏形态不同。
由于业务应用对数据分析的需求,脱敏后的数据要在保证隐私信息被隐掉的基础上保持一定原有特性。典型数据脱敏需求如下表所示:
YD/T 4245-2023
《电信网和互联网数据脱敏技术要求和测试方法》
本文件规定了电信网和互联网数据脱敏的技术要求与测试方法。
本文件适用于电信网和互联网数据的脱敏工作,脱敏技术能力的设计、研发、测试、评估和验收等,包括数据脱敏的提供商、用户、测评机构和监管机构等。
在实际应用数据脱敏技术的过程中,主要涉及脱敏算法、脱敏规则和脱敏策略三个要素:
(1)脱敏算法:在脱敏过程中使用特定数据变形的方式。主要的脱敏算法有数据截断、日期偏移取整、规整、掩码、加密、重排、替换、重写、均化、散列等。
(2)脱敏规则:原始脱敏算法的基础上,通过一种或多种脱敏算法的组合应用在一种特定的敏感数据_上便形成了脱敏规则。
(3)脱敏策略:在具体业务场景中,根据不同的业务场景选择一系列脱敏规则可称为脱敏策略。
二、效果评估
脱敏效果的评估可从有效性、真实性、高效性和多样性四个方面考虑。
有效性:数据脱敏的基本原则是要去掉数据的敏感性。有效性包含两方面:相对于原有数据,脱敏后数据敏感性的去除程度;脱敏后数据被反推回具有敏感性原始数据的可能程度。
真实性:真实性包含两方面:相对于原有数据,脱敏后数据业务逻辑特征的保留程度;相对于原有数据,脱敏后数据统计分布特征的保留程度。
高效性:高效性表示的是数据脱敏能够高效地完成,不同的数据脱敏方法的实施难度是不一样的。
多样性:多样性即数据脱敏可能根据需求不同而生成不同脱敏程度的结果。包含配置的参数以及根据配置参数生成的脱敏结果和可选结果的集合。
三、数据脱敏技术要求
1、安全功能要求
2、业务场景要求
3、自身安全要求
相关推荐: