विज्ञान लेखमाला : ०१ : डिजिटल फोरेन्सिक

Jack_Bauer's picture
Jack_Bauer in लेखमाला
26 Jan 2016 - 12:38 am

सर्वसाधारणपणे फोरेन्सिक म्हटले की गुन्हे, पोलीस, रंगीबेरंगी द्रव्य सतत उकळत असलेली प्रयोगशाळा आणि पांढरे कपडे घातलेली त्या प्रयोगशाळेत काम करणारी माणसे असे काहीसे डोळ्यासमोर येते. हे असे होण्यामागे आपली CID सिरियल, चित्रपट यांचा मोठा हात आहे. याच फोरेन्सिकची एक शाखा म्हणजे डिजिटल फोरेन्सिक.

आज इंटरनेटमुळे माहितीचा विस्फोट झाला आहे असे म्हणता येईल. माहितीचे वर्गीकरण दोन ढोबळ गटात होते.

१. Structured : ह्यामध्ये ERP system, SAP, database अशा माध्यमांत असणारी माहिती येते. ही माहिती मिळवणे तुलनेने सोपे असते, कारण अशा ठिकाणी माहिती टेबल्समध्ये असते आणि ही टेबल्स एकमेकांशी जोडलेली असतात.

२. Unstructured : ह्यामध्ये ईमेल, इंटरनेट history , कॉम्प्युटरवर (हार्ड डिस्कवर) असलेल्या फाइल्स, नेटवर्कवर (share point) असलेली माहिती इ.

डिजिटल फोरेन्सिक हे मुख्यत्वे दुसर्‍या प्रकारातील माहितीकरिता वापरले जाते.

हे क्षेत्र गुन्हेगारीशी संबंधित आहे ह्यात वादच नाही, पण डिजिटल फोरेन्सिकमध्ये रंगीबेरंगी द्रव्य सतत उकळत असलेली प्रयोगशाळा आणि पांढरे कपडे घातलेली त्या प्रयोगशाळेत काम करणारी माणसे असे काही नसते. एक कॉम्प्युटर lab असते आणि त्यात वेगवेगळी डिजिटल उपकरणे असतात, ज्याचा वापर करून काम केले जाते. इथे अगदी मोजक्याच जणांना प्रवेश (Restricted Access) असतो. याचे मुख्य कारण म्हणजे इथे असणारी माहिती अतिसंवेदनशील (strictly confidential) प्रकारात येते. इथे प्रवेश मिळण्याआधी तुम्हाला अनेक non disclosure agreements (NDA) वर सही करावी लागते. त्यानंतर तुमची background पडताळणी, गुन्हेगारी रेकॉर्ड तपासले जाते. इतर अनेक गोष्टी पार पडल्यावर तुम्हाला मर्यादित काळासाठी तुमच्या कामाच्या स्वरूपानुसार labच्या विशिष्ट भागापुरता प्रवेश देण्यात येतो.

डिजिटल फोरेन्सिकमध्ये EDRM (Electronic Discovery Reference Model) खूप महत्त्वाचे असते. प्रथम कोणतीही समस्या/ तक्रार आल्यावर संबंधित व्यक्तींना कायदेशीर नोटीस पाठवून त्यांना त्यांच्याकडील सर्व माहिती कोणतेही बदल व फेरफार न करता तशीच ठेवण्यास बांधील केले जाते. त्यानंतर त्या माहितीत (डेटामध्ये) कोणताही फेरफार वा बदल न होईल (forensically sound collection) अशा पद्धतीने ती गोळा केली जाते. ह्याचे एक उदाहरण म्हणजे तुमच्या कॉम्प्युटरवर एखादी फाइल आहे. तुम्ही ती कॉपी करून दुसरीकडे पेस्ट केली, तर नवीन जागी आलेल्या त्या फाइलची Date Accessed/ Date Created Property ही बदलते. म्हणजेच फाइलच्या मूळ माहितीमध्ये बदल झाला (contaminated data) आणि त्यामुळे नवीन जागी कॉपी केलेली फाइल ही आता पुरावा म्हणून ग्राह्य धरता येणार नाही.

माहिती गोळा केल्यावर तिचे forensically sound processing (म्हणजे माहितीत कोणताही बदल न करता पृथक्करण) केले जाते आणि मग वकील किंवा reviewer ह्यांना रिव्ह्यूसाठी ती माहिती उपलब्ध केली जाते. तिथे मग वेगवेगळे फिल्टर्स - फाईलचा प्रकार, कुठून आली, कोणाला पाठवली, कधी पाठवली, कशी पाठवली, इंटरनेटवर काय पाहिले, स्मार्ट फोनवर काय केले अशी सगळी माहिती - वापरून पुरावा शोधला जातो आणि त्यातून गुन्हा शाबित व्हायला अगर तपासाला पुढील दिशा मिळायला सुरुवात होते. ह्या माहितीचा वापर करून शेवटी गुन्हेगाराचा गुन्हा सिद्ध होऊन त्याला कायद्यानुसार शिक्षा झाली की केस बंद होते आणि साठवणूक (Archive) विभागात ती माहिती पाठवली जाते. केस बंद झाल्यापासून पुढील किमान पाच वर्षे ही माहिती जतन करणे कायद्यानुसार बंधनकारक आहे. ह्याच कारण जर कोणत्याही कारणामुळे केस पुन्हा सुरू झाली, तर मागची माहिती उपलब्ध करून देणे बंधनकारक असते.

आता हे सर्व एका उदाहरणावरून पाहू.

एका तरुणीने पोलिसांकडे तक्रार केली की कोणीतरी तिच्या नावाचा ईमेल तयार करून, 'ती कॉल गर्ल आहे' अशी इंटरनेटवर पाच वेगवेगळ्या साईट्सवर माहिती टाकून तिचा मोबाइल नंबरही दिला होता. त्यामुळे तिला शारीरिक संबंधांसाठी विचारणा करणारे अनेक पुरुषांचे फोन येऊ लागले. तपासाला सुरुवात झाली.

तपास पथकाने तिचा आयडी वापरून त्या पाच वेबसाईट्स पाहिल्या. पाच ग्रूपवर ही माहिती टाकण्यात आली होती, ज्यापैकी एक ग्रूप पब्लिक होता. (म्हणजे सर्वांना पाहता येण्यासारखा, अन्यथा फक्त मेंबरनाच माहिती वाचता येते). त्या पब्लिक ग्रूपच्या त्या पेजचे Access log त्या वेबसाइटकडून मागवण्यात आले. त्यावरून ती माहिती टाकलेल्या मेसेजचा IP Address कळला. ISP म्हणजे इंटरनेट पुरवणार्‍या कंपनीकडून हा IP असलेल्या कॉम्प्युटरची त्या वेबसाइटवर माहिती टाकली गेली, त्या टाकलेल्या वेळेची माहिती मागवण्यात आली. त्यातून मुंबईच्या एका नेट कॅफेचा पत्ता मिळाला, जिथल्या कॉम्प्युटरवरून हा मजकूर टाकण्यात आला.

त्या नेट कॅफेमध्ये त्या दिवशी त्या वेळेची एन्ट्री रजिस्टरमधील माहिती काढण्यात आली. त्या वेळी असे लक्षात आले की कॅफेमध्ये त्या वेळी त्या दिवशी पाच माणसे होती. तपास पथकाने त्या तरुणीकडून आणखी माहिती काढायला सुरुवात केली, तेव्हा असे कळले की तिच्या जुन्या कंपनीतील एका सहकार्‍याने तिला लग्नाची मागणी घातली होती, पण तिने नकार दिला होता. हे कळल्यावर त्या पुरुष सहकार्‍यावर संशय आला. परंतु त्या रजिस्टरमधील पाच जणांमध्ये त्याचे नाव नव्हते. पोलिसांनी माहिती काढून त्याला अटक केली आणि त्याने "मी त्या दिवशी तिथे नव्हतोच" असे सांगायला सुरुवात केली. पुरावा म्हणून त्याने गोवा-मुंबई बसची तिकिटे दाखवली. त्याने सांगितले की त्या दिवशी तो गोव्यात होता, त्यामुळे तो हा गुन्हा करणे शक्य नाही. पोलिसांनी त्याचा स्मार्ट फोन जप्त केला आणि तपास पथकाने forensic labमध्ये पाठवला.

त्याच्या फोनमध्ये त्या तरुणीचा फोन नंबर होता, जो त्या वेबसाइटवर टाकला गेला होता. पण ह्यामुळे गुन्हा सिद्ध होऊ शकणार नव्हता. Forensic analysisमध्ये डिलीट करण्यात आलेले मेसेज रिकव्हर करण्यात आले आणि त्याने त्या तरुणीचा फोटो व माहिती अनेक जणांना पाठवली होती असे आढळून आले आणि त्यानंतर ते मेसेज त्याने डिलीट केले होते. ह्यावरून पोलिसांचा संशय बळावला. ह्याखेरीज त्याच्या फोनमध्ये, त्याचे समुद्रकिनार्‍यावर काढलेले त्या दिवशीचे फोटो मिळाले. विचारणा केली असता त्याने "ते गोव्याच्या समुद्रावर काढलेले आहेत" असे सांगितले. परंतु इथे तो फसला. फोटोचे forensic analysis केल्यावर फोटोच्या metadataमध्ये लोकेशन ह्या जागी जुहू, मुंबई असे दिसून आले. ह्याचाच अर्थ त्या दिवशी तो मुंबईमध्येच होता. म्हणजे हा माणूस खोटे बोलत होता. पोलीस त्याला कॅफेच्या मालकाकडे घेऊन गेले, तेव्हा त्यानेही त्याला ओळखले. ह्याचा अर्थ त्या माणसाने रजिस्टरवर खोटे नाव लिहिले होते. आता पोलिसांकडे भक्कम पुरावे आले होते.

पोलिसांनी कोर्टात सादर केलेले पुरावे आणि त्या नेट केफेच्या मालकाची साक्ष होताच तो माणूस पोपटासारखा बोलू लागला आणि त्याने त्याचा गुन्हा कबूल केला. पोलिसांचे पुरावे आणि गुन्ह्याची कबुली ग्राह्य धरून न्यायालयाने गुन्हेगाराला योग्य शासन केले आणि त्या तरुणीला न्याय मिळाला.

Forensic analysis करण्यासाठी अनेक सॉफ्टवेअर आहेत, पण मुख्य हे पृथक्करण (analysis) करतात कसे, ते एका उदाहरणावरून पाहू.

कॅन कॉर्प नावाची एक कंपनी आहे. तिथल्या ऑफिसमधील 'अ' नावाचा एक जण आपल्या कंपनीच्या प्रतिस्पर्ध्याच्या संपर्कात असून 'अ'ने गोपनीय माहिती त्याला पाठवून दिली आहे, असा कॅन कॉर्पच्या संचालकाला संशय आला आणि तपास सुरू झाला. प्रथम 'अ'ला कायदेशीर नोटीस पाठवून त्याच्याकडील laptop जप्त करण्यात आला. आता गोपनीय माहिती ईमेलद्वारेच पाठवली असणार, असे गृहीत धरून त्याच्या हार्ड डिस्कवरील ईमेलचे पृथक्करण सुरू झाले. तो माणूस जवळजवळ ५ वर्षे (२०१०-२०१५) कॅन कॉर्पमध्ये काम करत होता आणि एकूण ६५,००० ईमेल त्याच्या हार्ड डिस्कवरून मिळाले. आता ६५,००० ईमेल वाचून त्यातून हवा तो शोधून काढणे खूपच वेळखाऊ काम आहे. अशा वेळी forensic experts विविध मार्ग अवलंबतात. उदा. :

१. प्रतिस्पर्धी कंपनी दोन वर्षांपूर्वी सुरू झाली, म्हणजे २०१३च्या आधीचे ईमेल तपासातून वगळू. राहिले २०,००० ईमेल.

२. कंपनीची गोपनीय माहिती excel फाइलमध्ये असते, म्हणजेच असे ईमेल शोधायला हवेत, ज्याला excel फाइल जोडलेली असेल. उरले ४००० ईमेल्स.

३. ह्या excel फाइलचे विशिष्ट नाव आहे. केवळ त्या नावाची excel जोडलेले ईमेल्स ५००. पण ह्यात ती फाइल जोडून ऑफिसमध्ये इतरांना २०१३नंतर पाठवलेलेही ईमेल येतात.

४. आता ह्या ५००पैकी जे खरोखर गरजेचे होते, ते आणि प्रतिस्पर्धी कंपनीला पाठवलेले ह्यात फरक काय? सर्वसाधारणपणे माणूस चोरी केली ती तिच्या खाणाखुणा पुसून टाकायचा प्रयत्न करतो, त्याप्रमाणेच 'अ'ने ते विशिष्ट ईमेल डिलीट केलेले असायची शक्यता जास्त आहे. डिलीट केलेली माहिती पुन्हा मिळवणे (recovery) हा forensic analysisचा एक भाग असतो. आता ५००पैकी डिलीट करून पुन्हा मिळवलेले ईमेल किती? उत्तर : २५

२५ ईमेल्स वाचून पडताळून शहानिशा करणे सोपे आहे. आणि forensic experts चा अंदाज खरा निघाला, तर त्या २५मध्ये हवा तो ईमेल (पुरावा) मिळू शकतो. जर नाही मिळाला, तर वर १-४मध्ये सांगितलेले फिल्टर्स बदलून बघावे लागतात. वेगवेगळ्या फिल्टर्सचे combination करून शेवटी पुरावा मिळवणे हे मोठ्या कौशल्याचे काम असते.

फक्त आपल्याला कामाची पद्धत कळावी, ह्यासाठी वरील उदाहरण घेतलेले आहे. प्रत्यक्षात ह्यापेक्षा अनेक पटींनी गुंतागुंतीचे गुन्हे सोडवावे लागतात.

सध्याच्या डिजिटल जमान्यात अनेक गोष्टी आपण करतो आणि ह्या डिजिटल विश्वात आपण जाणते-अजाणतेपणी त्या सगळ्या गोष्टींच्या पाऊलखुणा मागे सोडत असतो. डिजिटल फोरेन्सिक ह्याच खाणाखुणांचा माग घेत तपासाला मदत करते आणि प्रसंगी पीडिताला न्याय मिळवून देण्यात महत्त्वाची भूमिका बजावते.

प्रतिक्रिया

ओघवता लेख आणि एका वेगळ्याच विषयाची माहिती.. उत्सुकता अजुन वाढीला लागली आहे .. तुम्हीच अजुन लेख लिहा त्यासाठी या विषयावर ..

प्रीत-मोहर's picture

26 Jan 2016 - 9:23 pm | प्रीत-मोहर

सुंदर लेख!!!! अजुन डिटेलमधे वाचायला आवडेल

माहितीपूर्ण लेख आहे. आवडला धन्यवाद.

छान माहितीपूर्ण लेख पुन्हा येऊ लागलेत.

अरिंजय's picture

27 Jan 2016 - 7:02 am | अरिंजय

किचकट विषय आहे. तुम्ही तो छान सोप्या भाषेत सांगीतला.

नाखु's picture

27 Jan 2016 - 9:17 am | नाखु

आग्रही मागणीशी सहमत.

उत्तम लेख आणि समजेल अशी भाषा..

स्मार्ट फोन अडाणी नाखु

सस्नेह's picture

27 Jan 2016 - 10:12 am | सस्नेह

उत्तम माहितीपूर्ण लेख.

Maharani's picture

27 Jan 2016 - 10:41 am | Maharani

Uttam lekh....ajun vachayla aavadel ya vishayi

पगला गजोधर's picture

27 Jan 2016 - 10:47 am | पगला गजोधर

सोपी व समजेल अशी भाषा......

जॅक, एकदम मस्त माहिती.
यात अनस्ट्रक्चर्ड डेटा असल्याने बिग डेटा अ‍ॅनालिटिक्स कितपत वापरलं जाऊ शकतं?
भारतात नाही तर परदेशात कितपत वापरल जातं?

मी गुगलून पाहेनच, परंतु इथे माहिती दिली तर उत्तम. :-)

अस्वस्थामा's picture

27 Jan 2016 - 6:48 pm | अस्वस्थामा

बिग डेटा अ‍ॅनालिटिक्स कितपत वापरलं जाऊ शकतं?

माझ्या माहितीप्रमाणे अनस्ट्रक्चर्ड डेटासाठी वापरलं तर जातंच. अधिक माहिती जॅकराव देतीलच.

बिग डेटा अ‍ॅनालिटिक्स हे मुख्यते स्ट्रक्चर्ड डेटासाठी वापरले जाते परंतु आज काळ तपासातील क्तीष्ट्पणा (Complexity) इतकी आहे कि अनस्ट्रक्चर्ड डेटासाठी देखील बिग डेटा अ‍ॅनालिटिक्स हे वापरले जाते. पृथ्करण करण्यासाठीची माहितीचा आवाका रोज वाढतेच आहे. उदा : पूर्वी फ़क़्त लपटोप वरील माहिती गोल करावी लागे, मग आता त्याबरोबर स्मार्ट फोनपण आले, त्याबरोबर क्लाउड मध्ये असलेली माहिती, आता ipad इ . याशिवाय आता गुहेगार्पण चतुर होऊ लागले आहेत त्यामुळे थेट पुरावा मिळण्याची शकता कमी असते . अश्या वेळी patterns शोधण्यासाठी बिग डेटा अ‍ॅनालिटिक्सची खूप मदत होते. उदा : एखाद्याच्या हार्ड डिस्क वर ४०,००० एमैल्स असतील. त्यातील ८००० हे तो आणि दुसरा एक कर्मचारी ह्यांच्यातील आहेत असे मानू. आता pattern पहिला तर असे कळले कि महिन्याच्या २० तारखेला ह्या दोघांमधील एमैल्स ची देवाणघेवाण हि इतर तारखेपेक्ष्या खूपच जास्त आहे. दर महिन्याच्या २० तारखेला असे काय होते कि हे दोघे इतके बोलतात ? तर ते दोघे ज्या प्रोजेक्ट वर काम करत आहेत त्याच्या व्हेंडरचं पेमेंट २० तारखेला होता. म्हणजेच हे दोघे व्हेंडरला द्याव्या लागणाऱ्या पैशांविषयी बोलत असावेत अशी शक्यता तयार होते. आता व्हेंडरच्या पैशात ह्यांना इतका का इंटरेस्ट ? मग तपास त्या दृष्टीने पुढे सुरु ठेवता येतो. असे patterns बिग डेटा अ‍ॅनालिटिक्स च्या सहाय्याने शोधून काढता येतात .

मृत्युन्जय's picture

27 Jan 2016 - 3:48 pm | मृत्युन्जय

सुंदर झालाय लेख. लेखमालेची सुरुवत तर दणक्यात झाली आहे. अभिनंदन

मी-सौरभ's picture

28 Jan 2016 - 12:09 am | मी-सौरभ

सहमत आहे

पिलीयन रायडर's picture

27 Jan 2016 - 5:55 pm | पिलीयन रायडर

छान लेख. पण अजुन डिट्टेल माहिती हवी आहे. नक्की लिहा.

लेख आवडला. खरेच डिटेल्समध्ये लिहा.

छान लेख. याशिवाय बॅन्कान्च्या व्यवहारातले गुन्हे कसे तपासतात उदा.क्रेडिट कार्ड, डेबिट कार्ड वापरुन केलेले अवैध व्यवहार याबद्द्लही जाणुन घ्यायला आवडेल.

विवेक ठाकूर's picture

27 Jan 2016 - 8:28 pm | विवेक ठाकूर

सध्याच्या डिजिटल जमान्यात अनेक गोष्टी आपण करतो आणि ह्या डिजिटल विश्वात आपण जाणते-अजाणतेपणी त्या सगळ्या गोष्टींच्या पाऊलखुणा मागे सोडत असतो.

अत्यंत उपयोगी वाक्य !

किलमाऊस्की's picture

27 Jan 2016 - 8:37 pm | किलमाऊस्की

पण त्रोटक वाट्ला. अजून लिहीलत तर आवडेल वाचायला. बर्‍याच दिवसांनी माहीतीपूर्ण लिखाण वाचायला मिळालं.

Jack_Bauer's picture

29 Jan 2016 - 10:27 pm | Jack_Bauer

डिजिटल फोरेन्सिक मधील आणखी एक महत्वाचा भाग म्हणजे साक्ष. बर्याचदा तुम्हाला न्यायालयात साक्ष देण्यासाठी जावं लागत. तुम्ही शोधलेले पुराव्यांमुळे भक्कम झालेली तुमची बाजू कमकुवत करण्यासाठी विरुध्द पार्टी तुम्हाला वेडेवाकडे प्रश्न विचारून तुम्हाला गोंधळात टाकू शकते. बर्याचदा तुमच्या विश्वासार्हतेबद्दल (your credibility) प्रश्नचिन्ह निर्माण केले जाते जेणेकरून तुमची बाजू कमकुवत ह्यावी आणि असल्या माणसाने शोधून काढलेले पुरावे काय ग्राह्य धरणार ? असा युक्तिवाद करता यावा . ह्यासाठी स्वतःच फोरेन्सिक कौशल्यावर प्रभुत्व मिळवणे आणि स्वतःच्या क्षमतेबद्दल पूर्ण विश्वास बाळगून उत्तरे देणे अतिशय महत्वाचे ठरते. तुमच्या साक्षीवरून खटल्याचे पूर्ण नूर पालटू शकतो. facts kills opinion ह्या सूत्रानुसार आपण सत्य सदर केले कि विरुद्ध पार्टीला ते मान्य करण्यावाचून पर्याय राहत नाही परंतु आपण मत व्यक्त केले असेल जसे कि बहुतेक असेल , शक्यता आहे, असू शकेल अशी वाक्य म्हटली कि विरुध्द पार्टीला तुम्ही आयते कोलीत दिल्यासारखे होते. त्यामुळे आपण काय शब्द वापरात आहोत ह्याचे भान ठेवावे.

मुक्त विहारि's picture

28 Jan 2016 - 12:22 pm | मुक्त विहारि

ह्या विषयाची तोंड-ओळख आवडली.

नीलमोहर's picture

28 Jan 2016 - 2:23 pm | नीलमोहर

उत्तम माहितीपूर्ण लेख.

सुनील's picture

29 Jan 2016 - 8:15 am | सुनील

माहितीपूर्ण लेख.

नुकतीच ठाण्यातील एका बिल्डरने आत्महत्या केली होती. त्याने लिहिलेल्या पत्रातील काही खोडलेली नावे वाचण्याचे काम अशाच पद्धतीने केले असावे.

जेपी's picture

29 Jan 2016 - 10:00 pm | जेपी

लेख आवडला..

आनंद कांबीकर's picture

29 Jan 2016 - 11:11 pm | आनंद कांबीकर

एकदम झक्कास!
तुमची परवानगी असेल तर मी, मिपा वर नसलेल्या माझ्या मित्रांना हा धागा पाठवेल.

सुधीर कांदळकर's picture

31 Jan 2016 - 7:39 pm | सुधीर कांदळकर

सुरेख. या लेखाद्वारे विज्ञानलेखन नक्कीच प्रगतीपथवर काही पावले पुढे गेले आहे. या विषयावर विस्तृत, विविधांगी आणि तपशीलवार लेखमाला वाचायला आवडेल. आणि धन्यवाद.

मदनबाण's picture

1 Feb 2016 - 10:57 pm | मदनबाण

महत्वपूर्ण माहिती... असेच अजुनही लेखन करत रहावे ही विनंती. :)

मदनबाण.....
आजची स्वाक्षरी :- twenty one pilots: Stressed Out [OFFICIAL VIDEO]