1. ડેટા માસ્કીંગનો ખ્યાલ
ડેટા માસ્કીંગને ડેટા માસ્કીંગ તરીકે પણ ઓળખવામાં આવે છે. જ્યારે અમે માસ્કિંગ નિયમો અને નીતિઓ આપી હોય ત્યારે મોબાઇલ ફોન નંબર, બેંક કાર્ડ નંબર અને અન્ય માહિતી જેવા સંવેદનશીલ ડેટાને કન્વર્ટ કરવા, સંશોધિત કરવા અથવા આવરી લેવાની તકનીકી પદ્ધતિ છે. આ ટેકનિકનો ઉપયોગ મુખ્યત્વે સંવેદનશીલ ડેટાને અવિશ્વસનીય વાતાવરણમાં સીધો ઉપયોગ થતો અટકાવવા માટે થાય છે.
ડેટા માસ્કિંગ સિદ્ધાંત: ડેટા માસ્કિંગમાં મૂળ ડેટા લાક્ષણિકતાઓ, વ્યવસાય નિયમો અને ડેટા સુસંગતતા જાળવવી જોઈએ તેની ખાતરી કરવા માટે કે પછીના વિકાસ, પરીક્ષણ અને ડેટા વિશ્લેષણને માસ્કિંગથી અસર થશે નહીં. માસ્કિંગ પહેલાં અને પછી ડેટા સુસંગતતા અને માન્યતાની ખાતરી કરો.
2. ડેટા માસ્કીંગ વર્ગીકરણ
ડેટા માસ્કિંગને સ્ટેટિક ડેટા માસ્કિંગ (SDM) અને ડાયનેમિક ડેટા માસ્કિંગ (DDM)માં વિભાજિત કરી શકાય છે.
સ્ટેટિક ડેટા માસ્કિંગ (SDM): સ્ટેટિક ડેટા માસ્કિંગ માટે ઉત્પાદન પર્યાવરણમાંથી અલગતા માટે નવા બિન-ઉત્પાદન પર્યાવરણ ડેટાબેઝની સ્થાપનાની જરૂર છે. સંવેદનશીલ ડેટા ઉત્પાદન ડેટાબેઝમાંથી કાઢવામાં આવે છે અને પછી બિન-ઉત્પાદન ડેટાબેઝમાં સંગ્રહિત થાય છે. આ રીતે, અસંવેદનશીલ ડેટાને ઉત્પાદન વાતાવરણથી અલગ કરવામાં આવે છે, જે વ્યવસાયની જરૂરિયાતોને પૂર્ણ કરે છે અને ઉત્પાદન ડેટાની સુરક્ષાની ખાતરી કરે છે.
ડાયનેમિક ડેટા માસ્કિંગ (DDM): તેનો ઉપયોગ સામાન્ય રીતે ઉત્પાદન વાતાવરણમાં વાસ્તવિક સમયમાં સંવેદનશીલ ડેટાને અસંવેદનશીલ બનાવવા માટે થાય છે. કેટલીકવાર, વિવિધ પરિસ્થિતિઓમાં સમાન સંવેદનશીલ ડેટાને વાંચવા માટે માસ્કિંગના વિવિધ સ્તરોની જરૂર પડે છે. ઉદાહરણ તરીકે, વિવિધ ભૂમિકાઓ અને પરવાનગીઓ વિવિધ માસ્કિંગ યોજનાઓ અમલમાં મૂકી શકે છે.
ડેટા રિપોર્ટિંગ અને ડેટા પ્રોડક્ટ્સ માસ્કિંગ એપ્લિકેશન
આવા દૃશ્યોમાં મુખ્યત્વે આંતરિક ડેટા મોનિટરિંગ ઉત્પાદનો અથવા બિલબોર્ડ, બાહ્ય સેવા ડેટા ઉત્પાદનો અને ડેટા વિશ્લેષણ પર આધારિત અહેવાલો, જેમ કે વ્યવસાય અહેવાલો અને પ્રોજેક્ટ સમીક્ષાનો સમાવેશ થાય છે.
3. ડેટા માસ્કીંગ સોલ્યુશન
સામાન્ય ડેટા માસ્કિંગ સ્કીમ્સમાં શામેલ છે: અમાન્યતા, રેન્ડમ મૂલ્ય, ડેટા રિપ્લેસમેન્ટ, સપ્રમાણ એન્ક્રિપ્શન, સરેરાશ મૂલ્ય, ઑફસેટ અને રાઉન્ડિંગ, વગેરે.
અમાન્યતા: અમાન્યતા એ સંવેદનશીલ ડેટાના એન્ક્રિપ્શન, ટ્રંકેશન અથવા છુપાવવાનો સંદર્ભ આપે છે. આ યોજના સામાન્ય રીતે વાસ્તવિક ડેટાને વિશિષ્ટ પ્રતીકો (જેમ કે *) સાથે બદલે છે. ઓપરેશન સરળ છે, પરંતુ વપરાશકર્તાઓ મૂળ ડેટાના ફોર્મેટને જાણી શકતા નથી, જે અનુગામી ડેટા એપ્લિકેશનોને અસર કરી શકે છે.
રેન્ડમ મૂલ્ય: રેન્ડમ મૂલ્ય એ સંવેદનશીલ ડેટાના રેન્ડમ રિપ્લેસમેન્ટનો સંદર્ભ આપે છે (સંખ્યાઓ અંકોને બદલે છે, અક્ષરો અક્ષરોને બદલે છે અને અક્ષરો અક્ષરોને બદલે છે). આ માસ્કિંગ પદ્ધતિ ચોક્કસ હદ સુધી સંવેદનશીલ ડેટાના ફોર્મેટને સુનિશ્ચિત કરશે અને અનુગામી ડેટા એપ્લિકેશનની સુવિધા આપશે. કેટલાક અર્થપૂર્ણ શબ્દો માટે માસ્કીંગ ડિક્શનરીની જરૂર પડી શકે છે, જેમ કે લોકો અને સ્થાનોના નામ.
ડેટા રિપ્લેસમેન્ટ: ડેટા રિપ્લેસમેન્ટ એ નલ અને રેન્ડમ મૂલ્યોના માસ્કિંગ જેવું જ છે, સિવાય કે વિશિષ્ટ અક્ષરો અથવા રેન્ડમ મૂલ્યોનો ઉપયોગ કરવાને બદલે, માસ્કિંગ ડેટાને ચોક્કસ મૂલ્ય સાથે બદલવામાં આવે છે.
સપ્રમાણ એન્ક્રિપ્શન: સપ્રમાણ એન્ક્રિપ્શન એ ખાસ ઉલટાવી શકાય તેવી માસ્કીંગ પદ્ધતિ છે. તે એન્ક્રિપ્શન કી અને અલ્ગોરિધમ્સ દ્વારા સંવેદનશીલ ડેટાને એન્ક્રિપ્ટ કરે છે. સાઇફરટેક્સ્ટ ફોર્મેટ તાર્કિક નિયમોમાં મૂળ ડેટા સાથે સુસંગત છે.
સરેરાશ: સરેરાશ યોજનાનો ઉપયોગ આંકડાકીય દૃશ્યોમાં થાય છે. આંકડાકીય માહિતી માટે, અમે પ્રથમ તેમના સરેરાશની ગણતરી કરીએ છીએ, અને પછી અવ્યવસ્થિત રીતે સરેરાશની આસપાસ અસંવેદનશીલ મૂલ્યોનું વિતરણ કરીએ છીએ, આમ ડેટાનો સરવાળો સતત રાખીએ છીએ.
ઓફસેટ અને રાઉન્ડિંગ: આ પદ્ધતિ રેન્ડમ શિફ્ટ દ્વારા ડિજિટલ ડેટાને બદલે છે. ઓફસેટ રાઉન્ડિંગ ડેટાની સુરક્ષા જાળવી રાખતી વખતે શ્રેણીની અંદાજિત અધિકૃતતાને સુનિશ્ચિત કરે છે, જે અગાઉની યોજનાઓ કરતાં વાસ્તવિક ડેટાની નજીક છે, અને મોટા ડેટા વિશ્લેષણના દૃશ્યમાં ખૂબ મહત્વ ધરાવે છે.
ભલામણ મોડલ "ML-NPB-5660"ડેટા માસ્કીંગ માટે
4. સામાન્ય રીતે ઉપયોગમાં લેવાતી ડેટા માસ્કીંગ તકનીકો
(1). આંકડાકીય તકનીકો
ડેટા સેમ્પલિંગ અને ડેટા એકત્રીકરણ
- ડેટા સેમ્પલિંગ: ડેટા સેટના પ્રતિનિધિ સબસેટને પસંદ કરીને મૂળ ડેટા સેટનું પૃથક્કરણ અને મૂલ્યાંકન એ ડી-ઓઇડિફિકેશન તકનીકોની અસરકારકતાને સુધારવા માટેની એક મહત્વપૂર્ણ પદ્ધતિ છે.
- ડેટા એકત્રીકરણ: આંકડાકીય તકનીકોના સંગ્રહ તરીકે (જેમ કે સરવાળો, ગણતરી, સરેરાશ, મહત્તમ અને લઘુત્તમ) માઇક્રોડેટામાં વિશેષતાઓ પર લાગુ થાય છે, પરિણામ મૂળ ડેટા સેટમાંના તમામ રેકોર્ડ્સનું પ્રતિનિધિત્વ કરે છે.
(2). ક્રિપ્ટોગ્રાફી
ક્રિપ્ટોગ્રાફી એ ડિસેન્સિટાઇઝેશનની અસરકારકતાને ડિસેન્સિટાઇઝ કરવા અથવા વધારવા માટેની એક સામાન્ય પદ્ધતિ છે. વિવિધ પ્રકારના એન્ક્રિપ્શન એલ્ગોરિધમ્સ વિવિધ ડિસેન્સિટાઇઝેશન અસરો પ્રાપ્ત કરી શકે છે.
- નિર્ધારિત એન્ક્રિપ્શન: બિન-રેન્ડમ સપ્રમાણ એન્ક્રિપ્શન. તે સામાન્ય રીતે ID ડેટા પર પ્રક્રિયા કરે છે અને જ્યારે જરૂરી હોય ત્યારે સાઇફરટેક્સ્ટને મૂળ ID પર ડિક્રિપ્ટ અને પુનઃસ્થાપિત કરી શકે છે, પરંતુ કીને યોગ્ય રીતે સુરક્ષિત કરવાની જરૂર છે.
- ઉલટાવી શકાય તેવું એન્ક્રિપ્શન: હેશ ફંક્શનનો ઉપયોગ ડેટા પર પ્રક્રિયા કરવા માટે થાય છે, જેનો ઉપયોગ સામાન્ય રીતે ID ડેટા માટે થાય છે. તેને સીધું ડિક્રિપ્ટ કરી શકાતું નથી અને મેપિંગ સંબંધ સાચવવો આવશ્યક છે. વધુમાં, હેશ ફંક્શનની સુવિધાને લીધે, ડેટા અથડામણ થઈ શકે છે.
- હોમોમોર્ફિક એન્ક્રિપ્શન: સિફરટેક્સ્ટ હોમોમોર્ફિક અલ્ગોરિધમનો ઉપયોગ થાય છે. તેની લાક્ષણિકતા એ છે કે સાઇફરટેક્સ્ટ ઓપરેશનનું પરિણામ ડિક્રિપ્શન પછી પ્લેનટેક્સ્ટ ઓપરેશન જેવું જ છે. તેથી, તે સામાન્ય રીતે સંખ્યાત્મક ક્ષેત્રો પર પ્રક્રિયા કરવા માટે વપરાય છે, પરંતુ પ્રદર્શન કારણોસર તેનો વ્યાપકપણે ઉપયોગ થતો નથી.
(3). સિસ્ટમ ટેકનોલોજી
સપ્રેશન ટેક્નોલોજી એવી ડેટા વસ્તુઓને કાઢી નાખે છે અથવા તેને સુરક્ષિત કરે છે જે ગોપનીયતા સુરક્ષાને પૂર્ણ કરતી નથી, પરંતુ તેને પ્રકાશિત કરતી નથી.
- માસ્કિંગ: તે એટ્રિબ્યુટ મૂલ્યને ઢાંકવા માટે સૌથી સામાન્ય ડિસેન્સિટાઇઝેશન પદ્ધતિનો સંદર્ભ આપે છે, જેમ કે વિરોધી નંબર, ID કાર્ડને ફૂદડીથી ચિહ્નિત કરવામાં આવે છે અથવા સરનામું કાપવામાં આવે છે.
- સ્થાનિક દમન: વિશિષ્ટ વિશેષતા મૂલ્યો (કૉલમ્સ) કાઢી નાખવાની, બિન-આવશ્યક ડેટા ફીલ્ડ્સને દૂર કરવાની પ્રક્રિયાનો સંદર્ભ આપે છે;
- રેકોર્ડ સપ્રેસન: ચોક્કસ રેકોર્ડ્સ (પંક્તિઓ) કાઢી નાખવાની, બિન-આવશ્યક ડેટા રેકોર્ડ્સ કાઢી નાખવાની પ્રક્રિયાનો સંદર્ભ આપે છે.
(4). ઉપનામ ટેકનોલોજી
સ્યુડોમેનિંગ એ ડી-ઓઇડેન્ટિફિકેશન તકનીક છે જે પ્રત્યક્ષ ઓળખકર્તા (અથવા અન્ય સંવેદનશીલ ઓળખકર્તા) ને બદલવા માટે ઉપનામનો ઉપયોગ કરે છે. પ્રત્યક્ષ અથવા સંવેદનશીલ ઓળખકર્તાઓને બદલે, ઉપનામ તકનીકો દરેક વ્યક્તિગત માહિતી વિષય માટે અનન્ય ઓળખકર્તાઓ બનાવે છે.
- તે મૂળ ID ને અનુરૂપ રેન્ડમ મૂલ્યો સ્વતંત્ર રીતે જનરેટ કરી શકે છે, મેપિંગ ટેબલ સાચવી શકે છે અને મેપિંગ ટેબલની ઍક્સેસને સખત રીતે નિયંત્રિત કરી શકે છે.
- તમે ઉપનામ બનાવવા માટે એન્ક્રિપ્શનનો ઉપયોગ પણ કરી શકો છો, પરંતુ ડિક્રિપ્શન કીને યોગ્ય રીતે રાખવાની જરૂર છે;
આ ટેક્નોલોજીનો ઉપયોગ મોટી સંખ્યામાં સ્વતંત્ર ડેટા વપરાશકર્તાઓના કિસ્સામાં થાય છે, જેમ કે ઓપનઆઈડી ઓપન પ્લેટફોર્મ દૃશ્યમાં, જ્યાં વિવિધ વિકાસકર્તાઓ એક જ વપરાશકર્તા માટે અલગ-અલગ Openids મેળવે છે.
(5). સામાન્યીકરણ તકનીકો
સામાન્યીકરણ તકનીક એ ડી-ઓઇડિફિકેશન તકનીકનો સંદર્ભ આપે છે જે ડેટા સેટમાં પસંદ કરેલા લક્ષણોની ગ્રેન્યુલારિટી ઘટાડે છે અને ડેટાનું વધુ સામાન્ય અને અમૂર્ત વર્ણન પ્રદાન કરે છે. સામાન્યીકરણ તકનીક અમલમાં મૂકવી સરળ છે અને રેકોર્ડ-સ્તરના ડેટાની અધિકૃતતાને સુરક્ષિત કરી શકે છે. તે સામાન્ય રીતે ડેટા ઉત્પાદનો અથવા ડેટા રિપોર્ટ્સમાં વપરાય છે.
- રાઉન્ડિંગ: પસંદ કરેલ એટ્રિબ્યુટ માટે રાઉન્ડિંગ બેઝ પસંદ કરવાનો સમાવેશ થાય છે, જેમ કે ઉપર અથવા નીચેની ફોરેન્સિક્સ, પરિણામ 100, 500, 1K અને 10K
- ટોપ અને બોટમ કોડિંગ તકનીકો: થ્રેશોલ્ડની ઉપર (અથવા નીચે) મૂલ્યોને ટોચ (અથવા તળિયે) સ્તરનું પ્રતિનિધિત્વ કરતી થ્રેશોલ્ડ સાથે બદલો, "X ઉપર" અથવા "નીચે X" નું પરિણામ આપે છે.
(6). રેન્ડમાઇઝેશન તકનીકો
એક પ્રકારની ડી-ઓઇડેન્ટિફિકેશન ટેકનિક તરીકે, રેન્ડમાઇઝેશન ટેક્નોલોજી રેન્ડમાઇઝેશન દ્વારા એટ્રિબ્યુટના મૂલ્યમાં ફેરફાર કરવાનો ઉલ્લેખ કરે છે, જેથી રેન્ડમાઇઝેશન પછીનું મૂલ્ય મૂળ વાસ્તવિક મૂલ્યથી અલગ હોય. આ પ્રક્રિયા હુમલાખોરની સમાન ડેટા રેકોર્ડમાં અન્ય વિશેષતા મૂલ્યોમાંથી વિશેષતા મૂલ્ય મેળવવાની ક્ષમતાને ઘટાડે છે, પરંતુ પરિણામી ડેટાની અધિકૃતતાને અસર કરે છે, જે ઉત્પાદન પરીક્ષણ ડેટા સાથે સામાન્ય છે.
પોસ્ટનો સમય: સપ્ટેમ્બર-27-2022