सर्च इंजिन - कसे चालते रे भाऊ ?

एकदा माझ्या मोठ्या मुलाला शाळेत मांसाहारी फुलाबद्दल (व्हिनस फ्लायट्रॅप) माहिती दिली होती पण त्याचे जे फोटो दाखवले ते ब्लॅक अ‍ॅन्ड व्हाइट होते. रंगीत फोटोसाठी तो माझ्यामागे लागला होता. त्याला फक्त फोटो बघायचे होते. मग त्याला मी म्हटले गुगल वर शोधुयात ना! गुगलच्या चित्रविभागाला साकडे घालून त्या फुलाची आणि त्यासारख्या दुसर्‍या फुलांचीही चित्रे त्याला दाखवून गुगलच्या शोध जगताची अलीबाबाची गुहा त्याला उघडून देली. काहीही शोधायचे असल्यास गुगल मध्ये सर्च करून माहिती मिळवता येते, ह्या कल्पनेने तो एकदम खुष झाला. मग त्याचे आणि माझे 'गुगल शोध' बद्दल झालेले बोलणे त्याने माझ्या धाकट्या मुलालाही सांगितले, प्रात्यक्षिकासहित. त्याचे त्यालाही कौतुक वाटून त्याचीही उत्सुकता चाळवली गेली. 'बाबा, गुगलवर आपण काहीपण शोधू शकतो?', गाल फुगवून आणि डोळे मोठ्ठे करून धाकट्याने विचारले. मी एकदम टेक सॅव्ही बाप असल्याच्या कौतुकाने त्याला म्हणालो, 'हो काहीपण, तुला काय शोधायचे ते सांग आपण शोधूया'. एकदम निरागसतेने त्याने विचारले, 'आई चिडल्यावर कधी-कधी तुम्ही म्हणता ना मला की नविन आई आणूयात! ही नविन आई पण आपण गुगलवर शोधू शकतो का?". च्यायला, ही आत्ताची लहान पिढी आपलेच दात आपल्या घशात कसे घालील ह्याचा काही नेम नाही. पण वेळ बरी होती, अर्धांग स्वयंपाकघरात गुंतलेले होते. मी लगेच, 'अरे चला तुम्हाला आइसक्रीम खायचे होते ना, जाऊया', असे म्हणून वेळ मारून नेण्यासाठी त्यांना घेऊन बाहेर पडलो. आईसक्रीमच्या खुषीत धाकटा त्याचा प्रश्न विसरून गेला. पण मोठ्या मुलाने, गुगलकडे ही सगळी माहिती अशी असते, तो ही सगळी माहिती आपल्याला अशी काय दाखवू शकतो असे 'समंजस' प्रश्न विचारले. त्याला समजावून देता देता लक्षात आले की 'एंटरप्राईज सर्च' ह्या क्षेत्रात काम केल्यामुळे माहिती झालेल्या ह्यातल्या तांत्रिक बाबींची माहिती साध्या आणि सोप्या भाषेत सर्वांनाच करू देता येईल. चला तर मग बघुयात हे सर्च इंजीन कसे काम करते ते... आजच्या ऑनलाईन जगात इंटरनेट हे माहितीचे भांडार झाले आहे. सर्व लहान मोठ्या कंपन्या त्यांचे ब्रॅन्ड्स, त्यांची उत्पादने आणि सेवा ह्यांच्या माहितीसाठी आणि मार्केटींगसाठी इंटरनेटचा प्रभावी वापर करुन त्या भांडारात भर टाकत आहेत. वेब २.० ( Web 2.0 ) मुळे इंटरनेट वाचनीय न रहाता लेखनीयही झाले आहे. लाखो ब्लॉगर्स विवीध विषयांवर लेखन करून त्या भांडाराला दिवसेंदिवस समृद्ध करीत आहेत. ही सर्व माहिती, अफाट पसरलेल्या आणि गहन खोली असलेल्या महासागराप्रमाणे आहे. आता ह्या माहितीच्या अफाट सागरातून आपल्याला हवी असलेली नेमकी माहिती शोधायची म्हणजे अक्षरशः 'दर्या मे खसखस' शोधण्यासारखेच आहे. इथेच हे इंटरनेट सर्च इंजीन अल्लादिनच्या जादूच्या दिव्यातील जिनप्रमाणे आपल्या मदतीसाठी पुढे येते. ही मदत करण्यासाठी इंटरनेट सर्च इंजीन अविरत कार्यरत असते. ह्या कामाची विभागणी खालील तीन मुलभूत प्रकारांत केलेली असते.

१	माग काढणे (Web Crawling)	इंटरनेटवरील सर्व वेब पेजेसचा माग काढून, त्यांना भेट देऊन त्यावरील माहिती गोळा करणे
२	पृथ:करण आणि सूची करणे (Analysis & Indexing)	गोळा केलेल्या माहितीचे पृथ:करण (Analysis) आणि सुसुत्रीकरण (Alignment) करून त्या माहितीचा जलद शोध घेण्यासाठी सूची (Index) बनवणे
३	शोध निकाल (Search Result)	शोध घेणार्‍या इंटरनेट वापरकर्त्यांना (Users) सूची वापरुन योग्य तो शोध निकाल (Search Result) कमीत कमी वेळात दाखवणे

१. Web Crawling (माग काढणे)

आपल्याला हवी असलेली माहिती इंटरनेटवर नेमक्या कोणत्या पानावर आहे हे आपल्याला सांगण्याआधी ते पान इंटरनेट सर्च इंजीनला माहिती असले पाहिजे, हो ना? त्यासाठी सर्च इंजीनला अस्तित्वात असलेल्या सर्व वेब पेजेसचा मागोवा घ्यावा लागतो. रोज भर पडण्यार्‍या ह्या करोडो वेब पेजेसना भेट देऊन त्यांचा मागोवा घेणे हे काही खायचे काम नाही (ह्या खडतर कामाचा आवाका, मुलींचा मागोवा घेत फिरणार्‍यांना नक्की ध्यानात येईल ;) ). ह्यासाठी सर्च इंजीन्स, सोफ्ट्वेअर रोबोट्स वापरतात ज्यांना 'स्पायडर (Spider)' म्हटले जाते. हे स्पायडर्स अक्षरशः इंटरनेटभर सरपटत जाउन ही माहिती गोळा करतात म्हणून ह्या प्रक्रियेला Web Crawling म्हणतात. ही प्रक्रिया पुनरावर्तन (Recursion) प्रक्रिया असते म्हणजे सुरुवातीच्या, पहिल्या पानावर असलेल्या सर्व लिंक्स गोळा केल्या जातात आणि मग त्या प्रत्येक लि़कला भेट देऊन पुन्हा त्या पानावरच्या सर्व लि़क गोळा करून त्या प्रत्येक लिंकला भेट देत ह्याची आवर्तने होत राहतात. आता कळीचा मुद्दा हा आहे की ह्या प्रत्येक पानाला भेट दिल्यावर काय माहिती गोळा केली जाते? प्रामुख्याने सर्व स्पायडर्स 'मजकूर स्वरूपातली (Text)' माहिती गोळा करतात. प्रत्येक सर्च इंजीन्सची आपापली विशीष्ट अशी अल्गोरिदम्स असतात ही माहिती गोळा करण्यासाठी. पण प्रामुख्याने वेब पेजचे टायटल, मेटा टॅग्स, हेडर टॅग्स, चित्रांना दिलेला मजकूर (Alt tag) ह्यांत असलेल्या Text ला जास्त वेटेज दिले जाते. कारण हा मजकूर त्या वेब पेजला 'डिफाईन' करत असतो. त्यानंतर Body tag मधला मजकूर गोळा केला जातो. काही वेब साइट्सना काही पेजेसचा मागोवा घेऊ द्यायचा नसतो. अशा वेळी ह्या साइट्स Robots.txt नावाची फाईल त्यांच्या साइट्वर ठेवतात. ही फाइल म्हणजे स्पायडर्स आणि वेब साइट ह्यांच्यामधला करार (Robots Exclusion Protocol) असतो. ज्या वेब पेजेसना ह्या स्पायडर्सनी भेट देऊ नये असे ठरवले असते त्या वेब पेजेसची नावे (लिंक्स) ह्या फाइलमध्ये लिहीलेली असतात. स्पायडर्स Crawling किंवा पुनरावर्तन चालू करायच्या आधि ही फाइल वाचून त्याप्रमाणे लिंक्स मागोवा घेताना गाळतात.

२. Analysis & Indexing (पृथ:करण आणी सूचीकरण)

ही सगळी 'मजकुर (Text)' माहिती गोळा करून सर्च इंजिन्स त्यांच्या जवळ ठेवत नाहीत. त्या माहितीचे पृथ:करण करून त्यातली शोध घेण्याच्या कामी येणारी माहितीच फक्त वापरली जाते. पण हे पृथ:करण असते तरी काय? पृथ:करण ह्यात प्रथम जी माहिती गोळा केली आहे ती कोणत्या भाषेतली आहे ते तपसले जाते. त्या भाषेच्या अनुषंगाने पृथ:करण कार्यवाहक (Analysers) वापरले जातात. एकदा भाषा कळली की मग त्या Text चे प्रसामान्यीकरण (Normalization) केले जाते. ह्यासाठी वापरली जाणारी प्रोसेस 'Stemming किंवा Lemmatization' म्हणून ओळखली जाते. ह्यात शब्दांची विवीध रूपे (धातूसाधित रूपे) त्यांच्या मूळ (धातू) प्रकारात आणली जातात. ह्म्म.. जरा बोजड झाले ना, वोक्के, उदाहरण बघू म्हणजे समजेल. car, cars, car's, cars' ह्याचे मूळ रूप car हे घेतले जाते. त्यामुळे जेव्हा 'car' हा शब्द सर्च टर्म म्हणून वापरला जाईल तेव्हा car चे कोणतेही रुप असलेली वेब पेजेस शोधली जातील. अजून एक उदाहरण बघुयात, "the boy's cars are different colors" वे वाक्य "the boy car differ color" असे Normalize केले जाईल. हे फक्त वानगीदाखल आहे. प्रत्यक्षात बरीच वेगवेगळी अल्गोरिदम्स वापरली जातात आणि ही प्रोसेस खुपच क्लिष्ट आहे. सूचीकरण आता ह्या नॉर्मलाईझ केलेल्या शब्दांच्या मूळ रुपांना (धातूंना) सूचीबद्ध केले जाते. ही सूची (फक्त समजण्यासाठी) पुस्तकाच्या शेवटी जी सूची (Index) असते, म्हणजे शब्दांची यादी आणि तो शब्द पुस्तकात कोण-कोणत्या पानांवर आलेला आहे ते पृष्ठ क्रमांक, साधारण तशीच, त्या प्रकारची एक सूची असते.

सर्च इंजीनच्या सूचीत नॉर्मलाईझ केलेले शब्दांचे मूळ रूप आणि ते कोण कोणत्या वेब पेजेस वर आले आहे त्यांची यादी असते. हेही फक्त वानगीदाखल आहे. हे सूचीकरण हा तर सर्च इंजीनचा आत्मा असतो आणि ते त्यांचे व्यावसायिक सिक्रेट असते. ह्या सूचीवरच सर्व डोलारा उभा असतो. ह्या सूचीला तांत्रिक भाषेत 'Inverted index' म्हणतात.

ह्या सूचीत तो शब्द त्या वेब पेज वर किती वेळा आला आहे, कुठे आला आहे, कुठल्या महत्वाच्या टॅग्स मध्ये आला आहे अशी विवीध माहिती असते. ह्या सूचीची रचना, सर्च इंजीन शोध निकाल किती जलद देऊ शकत ह्यासाठी फारच महत्वाची असते.

३. Search Result (शोध निकाल)

जेव्हा शोधकर्ता काही शोधण्यासाठी इंटरनेट सर्च इंजीन वापरतो तेव्हा जे शोधायचेय त्याच्यापेक्षा भलतीच काही वेब पेजेस शोध निकालात दिसली तर शोधकर्ता पुन्हा ते सर्च इंजीन वापरणारच नाही आणि तो असंतुष्ट वापरकर्ता (unsatisfied user) म्हणून गणला जाईल आणि असे unsatisfied user असणे सर्च इंजीनला परवडणार नाही (धंदा बसेल हो दुसरे काय, छ्या! मराठी माणसाला धंदा आणि तो बसला असे काही सांगितल्याशिवाय चटकन कळतच नाही). त्यासाठी शोध निकालातली अन्वर्थकता किंवा समर्पकता (relevance) फार महत्वाची असते. सर्च इंजीन्सच्या ह्या relevance चे मूल्यमापन Precision (अचूकता) आणि Recall (?) ह्यांनी केले जाते. ह्या दोन्ही गोष्टी परस्पर पुरक असतात. Precision (अचूकता): म्हणजे सर्च टर्म नुसार शोध निकालात न दाखवायची वेब पेजेस गाळण्याची (Filter) अचूकता Recall (?): म्हणजे सर्च टर्म नुसार शोध निकालात दाखवायची वेब पेजेस निवडण्याची अचूकता आज सर्च इंजीनचे जवळजवळ ८०-८३% मार्केट काबीज करून त्यावर मोनोपॉली असलेल्या गुगलच्या यशाचे 'relevance' हेच मूळ आहे. लॅरी आणि सर्जी ह्या जोडगोळीच्या 'पेजरॅन्क (PageRank)' अल्गोरिदम वर गुगलचा डोलारा उभा आहे. गंमत म्हणजे एकेकाळी त्यांना आणि त्यांच्या ह्याच अल्गोरिदमला कोणीही हिंग लावूनही विचारत नव्हते. शेवटी कंटाळून त्यांनी स्वतःची कंपनी चालू करायचा निर्णय घेतला. :) या खालच्या चित्रात दाखवल्याप्रमाणे एकंदरीत सर्च इंजीन चालते, बरं का रे भाऊ!

(सर्व चित्रे आंतरजालावरून साभार)

लेखनविषय:	तंत्र
लेखनप्रकार	लेख माहिती

वाचने 8146

प्रतिक्रिया 49

प्रतिक्रिया

मस्तच

विकास मंगळवार, 22/05/2012 00:17

खूप छान आणि माहितीपूर्ण लेख आहे! धन्यवाद. सविस्तर वाचतोय! अजून असेच लेख येउंदेत! :-)

उत्तम

सुनील मंगळवार, 22/05/2012 00:37

छान माहिती. गुगलने मोनोपॉली निर्माण केली आहे हे खरेच. खरे तर, गुगलणे असे नवे क्रियापदच मराठीत बनू पाहते आहे! माग काढणे (web crawling) ही क्रिया गुगल अखंडपणे करीत असावे पण तरीही त्याची फ्रिक्वेन्सी काय असावी? दिवसातून एकदा? अनेकदा? चित्रे दिसत नाहीत.

धन्यवाद.

प्रभाकर पेठकर मंगळवार, 22/05/2012 01:39

गुगलच्या विलक्षण जादूभरल्या जगतातील गल्या-बोळ समजाऊन घेताना गुगलचा 'नकाशा' बर्‍यापैकी टाळक्यात शिरतो आहे तरी पण हे अगदीच मुलभूत आहे हेही जाणवते आहे. गुगलचा पसारा बघता किती क्लिष्ट असेल हे सर्च इंजीन अशा विचारानेच अचंबित झालो आहे. सोत्री साहेब, धन्यवाद. विचारांना चालना दिलीत.

क्लिष्ट तांत्रिक गोष्टी

बॅटमॅन मंगळवार, 22/05/2012 02:18

क्लिष्ट तांत्रिक गोष्टी मराठीत समजावून सांगण्याच्या आपल्या हातोटीला सलाम.

आवडेश. प्रश्न : सॉफ्टवेअर

शिल्पा ब मंगळवार, 22/05/2012 02:35

आवडेश. प्रश्न : सॉफ्टवेअर प्रोग्रामचं नाव स्पायडर आहे का? रोबोट फाइल बनवुन ठेवली की ऑपॉप स्पायडरला कळतं की यातले पानं वापरायचे नाहीत म्हणुन, की सर्च इंजिन वाल्यांना कळवावं लागतं का कसं? शेवटचा डायग्राम सोपा दिसत असुन समजला नाही...याचा अर्थ वरचे समजले अशातला भाग नाही पण तरी..

प्रश्न : सॉफ्टवेअर

सोत्रि मंगळवार, 22/05/2012 23:19

प्रश्न : सॉफ्टवेअर प्रोग्रामचं नाव स्पायडर आहे का?

नाही, त्या सॉफ्टवेअर प्रकाराला (Category) स्पायडर म्हणतात. रोबोट फाइल हा स्पायडर आणि वेब साईट यांच्यामधला करार (Mutual Protocol) असतो, ते एक स्टॅन्डर्ड आहे ते दोघांनाही माहिती असते. - (तांत्रिक) सोकाजी

सहीच

टवाळ कार्टा मंगळवार, 22/05/2012 07:01

सहीच

माहितीपूर्ण लेख

चिरोटा मंगळवार, 22/05/2012 07:26

लेख आवडला.चीनमध्ये बायडू हे सर्च इंजिन अतिशय लोकप्रिय आहे असे वाचले आहे. http://en.wikipedia.org/wiki/Baidu जगभर अजूनही नविन सर्च इंजिन बनवणार्‍या कंपन्यांत गुंतवणूक होत आहे. ह्याचा अर्थ ह्या क्षेत्रात अजूनही पैसा मिळवायला बराच वाव आहे असे दिसते.

अतिशय उत्तम माहिती, तीही अगदी

प्रचेतस मंगळवार, 22/05/2012 09:15

अतिशय उत्तम माहिती, तीही अगदी सोप्या भाषेत.

+१

मोदक मंगळवार, 22/05/2012 09:33

+१

सोत्रि

श्रावण मोडक मंगळवार, 22/05/2012 09:44

सोत्रि, सोत्रि, तुम्ही मास्तर का नाही हो झालात? ;-) हा दुसरा लेख झाला. तिसरा कशावर? :-)

=))

सोत्रि मंगळवार, 22/05/2012 23:32

तुम्ही मास्तर का नाही हो झालात?

मास्तर, अग्ग बाब्बो!!! अज्याबात नको हो . एका मास्तरांचा मुलगा असण्याची फळे अजुनही भोगतो आहे. च्यायला, सरांचा मुलगा ना रे तू, शोभते का तुला हे, काय आदर्श घ्यायचा तुझ्याकडून? ही असली वाक्ये ऐकून ऐकून सारे शालेय जिवन नासले माझे ;) - (एका मास्तरांचा मुलगा) सोकाजी

कुणाला?

श्रावण मोडक बुधवार, 23/05/2012 00:18

हे तू कुणाला सांगतो आहेस? :-)

झकास्स्स्स्स्स्स्स्स्स्स

अमृत मंगळवार, 22/05/2012 09:45

आणखी येऊ देत..... ते pagerank मधिल page म्हणजे लॅरी साहेबांचे अडनाव :-) गूगल वर एक डॉक्युमेंट्री बघण्यात आली होती 'The Google Boys'.. आंजावर उपलब्ध असल्यास जरूर बघावी... गूगल करून बघा हा हा हा... :-) अमृत

सः अत्रि

चौकटराजा मंगळवार, 22/05/2012 10:28

००१ प्यारा चालू ००२ सः ईक्वल टू तो ००३ अत्रि मीन्स प्राचीन महान ज्ञानी ००४ गिव्हस यू माहिती युजफूल माहिती ००५ गो टू ००१

लै भारी

मी-सौरभ मंगळवार, 22/05/2012 10:54

चायला हे अस्ले प्रश्न आपल्याला कधीच कसे पडत नाहीत :(

माहितीपूर्ण लेख.......

नन्दादीप मंगळवार, 22/05/2012 11:21

माहितीपूर्ण लेख.......

मस्त!! आवडलं एकदम!!

किलमाऊस्की मंगळवार, 22/05/2012 11:34

इंग्रजीमधे to google असं क्रियापद आलच आहे. स्पॅनिश्मधे ही Googlear असं क्रियापद आहे.

अजून एक प्रश्न

लॉरी टांगटूंगकर मंगळवार, 22/05/2012 11:48

उत्तम माहिती !!!! गुगल ला पैसे कसे मिळतात ?

झैरातीतून

भडकमकर मास्तर मंगळवार, 22/05/2012 12:15

झैरातीतून

आवडेश

राजघराणं मंगळवार, 22/05/2012 12:05

माहितीपूर्ण लेख

मस्त लेख.. एक शंका... गूगल

भडकमकर मास्तर मंगळवार, 22/05/2012 12:23

मस्त लेख.. एक शंका... गूगल लोकप्रिय होण्यापूर्वी काही सर्च इन्जिन फार भंपक रिझल्ट्स द्यायची ... म्हणजे कार शब्द टाकला तर इन्कारर्नेशन, कार्पेंटर, कार्व्हर वगैरे शब्दातला कार द्यायची... तेव्हा चिडचिड व्हायची... असे का होत होते? शंका दोन : मिसळपाव च्या सर्च मध्ये काय तां त्रिक अडचणी येतात / येत असाव्यात ज्यामुळे आपले धागे मिसळपावावरून अजिबात सापडत नाहीत पण तेच गूगल ला विचारले की क्षणात उत्तर हजर होते? अवांतर : ...सगळा लेख वाचला पण नवी आई कशी शोधायची ते दिलंच नाहीये... ;)

सांभाळून...

प्रभाकर पेठकर मंगळवार, 22/05/2012 12:53

सगळा लेख वाचला पण नवी आई कशी शोधायची ते दिलंच नाहीये... हो..! आणि आहे तिच्याशी ह्या विषयावर चर्चा करीत बसलं तर तीही पळून जायची.

अगदी, अगदी

श्रावण मोडक मंगळवार, 22/05/2012 14:25

अगदी, अगदी. मास्तर सांभाळूनच... काये, तुम्ही असा काही शोध घेतला तर तेही गुगल नोंदवून ठेवतं... :-)

उत्तर ...

छोटा डॉन मंगळवार, 22/05/2012 14:23

शंका दोन : मिसळपाव च्या सर्च मध्ये काय तां त्रिक अडचणी येतात / येत असाव्यात ज्यामुळे आपले धागे मिसळपावावरून अजिबात सापडत नाहीत पण तेच गूगल ला विचारले की क्षणात उत्तर हजर होते?

ह्याचे कारण असे आहे की मिपावर जे अनऑफिशियल शोधयंत्र आहे त्याचे नाव 'नंदन' असे आहे. तुम्ही त्याला हवे ते विचारा, क्षणात उत्तर आणि दुवा हजर होईल. ;) सोक्याचा लेख मस्तच आहे, त्याची व्हरायटी वाखाणण्याजोगी आहे. - छोटा डॉन

धन्यभाग हमारे....

सोत्रि मंगळवार, 22/05/2012 23:12

डॉन्राव, आपली पायधूळ मज पामराच्या धाग्याला लागली आणि पावन झाला हा धागा! :) पण मेगाबायटी प्रतिसादांची परंपरा काही राखली नाहीत आपण, त्यामुळे अंमळ निराशा झाली. - ( धागा पावन झालेला) सोकाजी

तांत्रिक उत्तरे

सोत्रि मंगळवार, 22/05/2012 23:07

एक शंका, उत्तरः गुगलच्या आधिची सर्व सर्च इंजीन्स ही फक्त सर्च टर्म वेब पेजवर किती वेळा आली आहे त्याच्या संख्येनुसार त्या पेवेट 'वेट' करून शोध निकालात दाखवायची. त्यावेळी 'रिलेव्हन्स' ला इतके सिरीयसली घेतले नव्हते कारण गुगल सारखा तगडा प्रतिस्पर्धी त्यांच्याकडे नव्हता. आणि एकंदरीतच 'सर्च' ह्याकडे कोणीही एक 'धंदा' किंवा खुप मोठे मार्केट म्हणून पाहिलेच नव्हते. सगळा हौशी मामला होता. इंतरनेट हे फॅड आहे असे खुद्द बिल गेट्स ला वाटायचे त्या काळी. लॅरी आणि सर्जी जेव्हा त्यांचे पेजरॅन्क अल्गोरिदम घेऊन फिरत होते तेव्हा त्यांना सिरीयसली न घेण्याचे हेच कारण होते. खुद्द याहुमधला त्यांचा मित्र त्यांना हे 'Over engineering' असे म्होता.त्यांना स्वतःची कंपनी चालू करायचा सल्ला दिला होता, जो उपरोधिक असावा असे मला वाटते. दुसरे कारण म्हणजे त्या सर्च इंजीनकडे असणारे त्यावेळचे 'Text Analyzers' हेही अत्याधुनिक नव्हते. गुगलने त्याची मार्केटवरील पकड मजबूत करण्यासाठी ह्या Analyzers मध्येही क्रांती घडवून आणली. शंका दोन उत्तरः प्रत्येक CMS, Conent Management System चे स्वतःचे सर्च इंजीन असते. मिपा कोणते CMS वापरते त्याची कल्पना नाही, पण Open Source असेल तर बहुदा Lucene ही सर्च लायब्ररी असावी, ती पण Open Source आहे. हा माझा फक्त अंदाज आहे जो चुकीचाही असू शकेल. तर त्यामुळे मराठी भषिक Analyzers नसावेत (हे फक्त व्यावसायिक सर्च इंजीन्स मध्ये असतात) त्यामुळे जी Index (पर्यायाने Taxonomy) बनली आहे ती एकदम टुकार आहे आणि त्यामुळे शोध निकालांचा Precision & Recall गंडलेला असतो. - (शोधक) सोकाजी

अतिशय उत्तम माहीती. हल्ली

मोहनराव मंगळवार, 22/05/2012 13:06

अतिशय उत्तम माहीती. हल्ली गुगलशिवाय पान हलत नाही हे अगदी खरं!! गुगलमधे काही चिन्हे वापरुन आपल्याला आवश्यक ती माहीती नेमकी मिळवता येते, ती पण माहीती दिलीत तर उत्तम होईल.

मस्त!

पैसा मंगळवार, 22/05/2012 13:06

सोप्या भाषेत उत्तम लेख. काहीही शोधायचं तर घरातलं पुस्तक काढण्यापेक्षा पटकन गुगल पेज ओपन केलं जातं, पण या गुगलण्यामागे एवढी मोठी प्रक्रिया असेल हे कधी लक्षात येत नाही! इतर अनेक सर्च इंजिन्स आहेत खरी, पण गुगल सर्वात लोकप्रिय असावं!

माहीतीपूर्ण

जातीवंत भटका मंगळवार, 22/05/2012 13:36

माहीतीपूर्ण लेख ! धन्यवाद राजे ..

मस्त लेख

स्मिता. मंगळवार, 22/05/2012 13:40

हासुद्धा लेख खूप छान झालाय! क्लिष्ट विषय सोप्या शब्दात समजावून सांगायची छान हातोटी आहे तुमच्याकडे. इन्फॉर्मेशन/डेटा प्रोसेसिंवर कॉलेजात शिकलं होतं पण त्यावर धूळीचा मोठ्ठा थर बसला होता, हे वाचून थोडसं ब्रश-अप झालं. अश्याच नेहमीच्या वापरातल्या तंत्रज्ञानावर आणखी माहितीपूर्ण लेख येवू द्या.

सोत्रि

श्रावण मोडक मंगळवार, 22/05/2012 14:32

इन्फॉर्मेशन/डेटा प्रोसेसिंवर कॉलेजात शिकलं होतं पण त्यावर धूळीचा मोठ्ठा थर बसला होता, हे वाचून थोडसं ब्रश-अप झालं.

ब्रशनं काही होत नाही. सोत्रि, झाडू घ्या... ;-)

व्हॅक्युम क्लिनर

स्मिता. बुधवार, 23/05/2012 00:10

त्यापेक्षा व्हॅक्युम क्लिनरच घ्या म्हणावं... म्हणजे झाडताना उडालेली धूळ पुन्हा जमणार नाही.

+१ टु स्मिता. >>>क्लिष्ट विषय

प्यारे१ मंगळवार, 22/05/2012 14:18

+१ टु स्मिता. >>>क्लिष्ट विषय सोप्या शब्दात समजावून सांगायची छान हातोटी आहे तुमच्याकडे. खूपच छान माहिती. अवांतरः याउलट आमच्याकडं सोपे विषय क्लिष्ट शब्दांत सांगणारे वेगवेगळे 'मास्तर, निस्तर नी त्यांचे आयडी' आहेत. ;)

+१ स्मिता.

स्वातीविशु मंगळवार, 22/05/2012 15:14

+१ स्मिता.

झक्कास रे सोत्र्या.

मृत्युन्जय मंगळवार, 22/05/2012 15:16

झक्कास रे सोत्र्या. :)

शिकलो

सुमीत मंगळवार, 22/05/2012 16:50

ते पण इतक्या सहज सोप्या भाषेत की सर्च इंजिन कसे चालते. जितक्या सहज पणे वाईन ची सफर घडवलीत तितक्याच सहज पणे आज सर्च इंजिन चे अंतरंग दाखिवलेत.

_/\_

नितिन थत्ते मंगळवार, 22/05/2012 20:40

_/\_ मध्यंतरी कुणाला तरी "गुगलकडे कसलीच माहिती नसते. पण त्याला ती माहिती शोधता येते" असे सांगितल्यावर त्याला बसलेला धक्का आठवला.

सुंदर लेख. आणखीन तप्शील्वार

अप्पा जोगळेकर मंगळवार, 22/05/2012 20:56

सुंदर लेख. आणखीन तप्शील्वार माहिती आवडली असती. पेपरात १६ मार्कांना हा प्रश्न विचारायचे एवढेच आठवते. बाकी सगळं विसरलो होतो. आभार.

माहिती आवडली पण आंतरजालावरून

रेवती मंगळवार, 22/05/2012 21:10

माहिती आवडली पण आंतरजालावरून साभार घेतलेली चित्रं दिसत नाहीत. एकंदरीतच कोणत्याही सर्चमागे किती प्रकार कार्यरत असतात याचा थोडा अंदाज आला. कोणतीही माहिती कितीवेळात शोधून दिली त्याचा उल्लेख स्क्रीनवर येतो तेंव्हा आश्चर्य वाटते.

आधी मला वाटायचं सगळी माहीती

शिल्पा ब मंगळवार, 22/05/2012 22:32

आधी मला वाटायचं सगळी माहीती गुगल/ याहु गोळा करत असेल...काही लोकं ते एखाद्या सर्व्हरला फीड करत असतील अन आपण सर्च केलं की ते सापडतं असं काहीसं. त्यामुळे रोज येणारी नविन माहीती शोधायला अन साठवायला माणसं ठेवली असतील अशी माझी कल्पना.

द्विरुक्ती

शिल्पा ब बुधवार, 23/05/2012 09:05

स्वारी.

तुस्सी तोप हो!

संदीप चित्रे बुधवार, 23/05/2012 08:19

क्लाउड आणि मग आता सर्च इंजिन... लगे रहो मुन्नाभाई... अगदी समोर बसून गप्पा मारल्यासारखे हे क्लिष्ट विषय सोपे करून सांगतोस मित्रा! कीप इट अप... (की म्हणू .. कीप डुइंग बॉटम्स अप? ;))

=))

सोत्रि बुधवार, 23/05/2012 11:08

धन्यवाद, 'बाँटम्स अप'च झँक आहे ;) -(बाँटमलेस) सोकाजी

यासाठी काही करता येते का ?

चित्रगुप्त बुधवार, 23/05/2012 11:56

समजा मी एक सुतार आहे, आणि बैलगाडीची चाके बनवतो. मझे नाव 'गंपा सुतार' असे आहे. बैलगाडीची चाके बनवणारे, सुतार आडनाव असणारे जगात शेकडो आहेत. ज्यांना बैलगाडीची चाके बनवून घ्यायची आहेत, परंतु माझ्या विषयी ज्यांना काहीही ठाउक नाही, त्यांनी गूगल वर सर्च केल्यावर माझे नाव, माझ्या कामाचे फोटो इ. त्यांना दिसावे, यासाठी काही करता येते का ? असल्यास काय? ते विनामूल्य आहे का?

सुंदर लेख

jaypal बुधवार, 23/05/2012 12:17

सोत्रि तुम्ही खरच मास्तर व्हा. कठिण विषय सोप्पा करुन सांगण्याची कला खुप कमी लोकांकडे असते आणि अस्से मास्तर तर त्या हुनही विराळाच.

लई भारी रे सोत्रि !

जे.पी.मॉर्गन बुधवार, 23/05/2012 12:42

बर्‍याच दिवसांनी मिपावर आलो आणि हा लेख आणि खालचे प्रतिसाद वाचण्यात वेळ कसा गेला समजलंच नाही. लई झ्याक्क जमलाय. सगळा प्रकार यथास्थित डीकोड करून सांगितला आहेस. खरंच क्लिष्ट गोष्ट सोपी करून सांगण्याच्या तुझ्या हातोटीला सलाम. तुझी पृथःकरण आणि सूचीकरणाची कला अफाट आहे मित्रा. मग ते वारुणीबद्दल असो वा सर्च इंजिन्सबद्दल! बरं... तुझा क्लाऊड वरचा लेख गूगलून बघतो... मिपाच्या इंजिनावर सापडायचा नाही ;) ह्यानंतर एस ई ओ (सर्च इंजिन ऑप्टिमायझेशन) वर काही लिहू शकशील? जे.पी.

नक्कीच...

सोत्रि बुधवार, 23/05/2012 13:50

SEO वर लिहायचा विचार होताच, पण आता तुझ्या ह्या प्रतिसादानंतर तो द्रुढ झाला. ह्या विषयावर माझा एक ह्वाईट पेपर पण आहे तसेच एक प्रोव्हीजनल पेटंटही आहे नावावर :) -(तांत्रिक )सोकाजी

मस्तं

प्राजक्ता पवार बुधवार, 23/05/2012 14:55

माहितीपूर्ण लेख :)