செமால்ட் நிபுணர்: பைதான் மற்றும் பியூட்டிஃபுல்சூப். தளங்களை எளிதில் துடைக்கவும்

தரவு பகுப்பாய்வு அல்லது இயந்திர கற்றல் திட்டங்களைச் செய்யும்போது, தேவையான தரவைப் பெற வலைத்தளங்களைத் துடைத்து, உங்கள் திட்டத்தை முடிக்க வேண்டும். பைதான் நிரலாக்க மொழியில் இந்த நோக்கத்திற்காக பயன்படுத்தக்கூடிய கருவிகள் மற்றும் தொகுதிகளின் சக்திவாய்ந்த தொகுப்பு உள்ளது. உதாரணமாக, HTML பாகுபடுத்தலுக்காக நீங்கள் BeautifulSoup தொகுதியைப் பயன்படுத்தலாம்.

இங்கே, பியூட்டிஃபுல்சூப்பைப் பார்ப்போம், இப்போது வலை ஸ்கிராப்பிங்கில் இது ஏன் பரவலாகப் பயன்படுத்தப்படுகிறது என்பதைக் கண்டுபிடிப்போம்.

BeautifulSoup அம்சங்கள்

- இது எளிதான வழிசெலுத்தல், பாகு மரங்களைத் தேடுவது மற்றும் மாற்றியமைப்பதற்கான பல்வேறு முறைகளை வழங்குகிறது, இதனால் ஒரு ஆவணத்தை எளிதில் பிரிக்கவும், அதிக குறியீட்டை எழுதாமல் உங்களுக்குத் தேவையான அனைத்தையும் பிரித்தெடுக்கவும் இது உங்களை அனுமதிக்கிறது.

- இது தானாக வெளிச்செல்லும் ஆவணங்களை யுடிஎஃப் -8 ஆகவும் உள்வரும் ஆவணங்களை யூனிகோடாகவும் மாற்றுகிறது. இதன் பொருள் ஆவணம் ஒரு குறியாக்கத்தைக் குறிப்பிட்டுள்ளது அல்லது அழகான சூப் அதை தானாகக் கண்டறிய முடியும் என வழங்கப்பட்ட குறியாக்கங்களைப் பற்றி நீங்கள் கவலைப்பட வேண்டியதில்லை.

- HTML5lib மற்றும் lxml போன்ற பிற பிரபலமான பைதான் பாகுபடுத்திகளை விட BeautifulSoup உயர்ந்ததாக கருதப்படுகிறது. இது வெவ்வேறு பாகுபடுத்தும் உத்திகளை முயற்சிக்க அனுமதிக்கிறது. இருப்பினும், இந்த தொகுதியின் ஒரு தீமை என்னவென்றால், இது வேகத்தின் இழப்பில் அதிக நெகிழ்வுத்தன்மையை வழங்குகிறது.

BeautifulSoup உடன் வலைத்தளத்தை துடைக்க நீங்கள் என்ன செய்ய வேண்டும்?

BeautifulSoup உடன் பணிபுரியத் தொடங்க, உங்கள் கணினியில் பைதான் நிரலாக்க சூழலை (உள்ளூர் அல்லது சேவையக அடிப்படையிலான) அமைக்க வேண்டும். பைதான் பொதுவாக OS X இல் முன்பே நிறுவப்பட்டிருக்கும், ஆனால் நீங்கள் விண்டோஸைப் பயன்படுத்தினால், அதிகாரப்பூர்வ வலைத்தளத்திலிருந்து மொழியை பதிவிறக்கம் செய்து நிறுவ வேண்டும்.

நீங்கள் அழகான சூப் மற்றும் கோரிக்கைகள் தொகுதிகள் நிறுவப்பட்டிருக்க வேண்டும்.

கடைசியாக, HTML குறிச்சொல் மற்றும் கட்டமைப்பில் பழக்கமான மற்றும் வசதியாக வேலை செய்வது நிச்சயமாக பயனுள்ளதாக இருக்கும், ஏனெனில் நீங்கள் இணைய ஆதார தரவுகளுடன் பணிபுரிவீர்கள்.

கோரிக்கைகள் மற்றும் அழகானசூப் நூலகங்களை இறக்குமதி செய்கிறது

பைதான் நிரலாக்க சூழல் நன்கு அமைக்கப்பட்டிருப்பதால், இப்போது நீங்கள் விரும்பும் எந்தப் பெயரிலும் புதிய கோப்பை (நானோவைப் பயன்படுத்தி) உருவாக்கலாம்.

உங்கள் பைதான் நிரல்களுக்குள் மனிதனால் படிக்கக்கூடிய வடிவமான HTTP ஐப் பயன்படுத்த கோரிக்கைகள் நூலகம் உங்களுக்கு உதவுகிறது, அதே நேரத்தில் பியூட்டிஃபுல்சூப் ஸ்கிராப்பிங்கை வேகமான வேகத்தில் பெறுகிறது. இரண்டு நூலகங்களையும் பெற நீங்கள் இறக்குமதி அறிக்கையைப் பயன்படுத்தலாம்.

ஒரு வலைப்பக்கத்தை எவ்வாறு சேகரித்து அலசுவது

நீங்கள் தரவைப் பிரித்தெடுக்க விரும்பும் வலைப்பக்கத்தின் URL ஐ சேகரிக்க request.get () முறையைப் பயன்படுத்தவும். அடுத்து, ஒரு அழகான சூப் பொருள் அல்லது பாகுபடுத்தும் மரத்தை உருவாக்கவும். இந்த பொருள் கோரிக்கைகளிலிருந்து ஆவணத்தை அதன் வாதங்களாக எடுத்து பின்னர் பாகுபடுத்துகிறது. ஒரு பக்கம் சேகரிக்கப்பட்ட, பாகுபடுத்தப்பட்ட மற்றும் ஒரு அழகான சூப் பொருளாக அமைக்கப்பட்டால், உங்களுக்குத் தேவையான தரவைச் சேகரிக்க தொடரலாம்.

பாகுபடுத்தப்பட்ட வலைப்பக்கத்திலிருந்து விரும்பிய உரையை பிரித்தெடுக்கிறது

நீங்கள் வலைத் தரவைச் சேகரிக்க விரும்பும் போதெல்லாம், வலைப்பக்கத்தின் ஆவண பொருள் மாதிரி (DOM) மூலம் அந்தத் தரவு எவ்வாறு விவரிக்கப்படுகிறது என்பதை நீங்கள் அறிந்து கொள்ள வேண்டும். உங்கள் வலை உலாவியில், ஆர்வமுள்ள தரவின் ஒரு பகுதியை உருவாக்கும் உருப்படிகளில் ஒன்றில் வலது கிளிக் செய்யவும் (விண்டோஸைப் பயன்படுத்தினால்) அல்லது CTRL + கிளிக் செய்யவும் (மேகோஸைப் பயன்படுத்தினால்). உதாரணமாக, நீங்கள் மாணவர்களின் தேசியங்களைப் பற்றிய தரவை வெளியேற்ற விரும்பினால், ஒரு மாணவரின் பெயர்களில் ஒன்றைக் கிளிக் செய்க. ஒரு சூழல் மெனு மேல்தோன்றும், அதற்குள், இன்ஸ்பெக்ட் எலிமென்ட் (பயர்பாக்ஸுக்கு) அல்லது இன்ஸ்பெக்ட் (குரோம்) போன்ற மெனு உருப்படியைக் காண்பீர்கள். தொடர்புடைய ஆய்வு மெனு உருப்படியைக் கிளிக் செய்க, மேலும் வலை டெவலப்பர் கருவிகள் உங்கள் உலாவியில் தோன்றும்.

BeautifulSoup என்பது ஒரு எளிய மற்றும் சக்திவாய்ந்த HTML பாகுபடுத்தும் கருவியாகும், இது வலைத்தளங்களை ஸ்கிராப் செய்யும் போது அதிக நெகிழ்வுத்தன்மையை அனுமதிக்கிறது. இதைப் பயன்படுத்தும் போது, வலைத்தளத்தின் விதிமுறைகளையும் நிபந்தனைகளையும் சரிபார்ப்பது போன்ற பொதுவான ஸ்கிராப்பிங் விதிகளைக் கவனிக்க மறக்காதீர்கள்; தளத்தில் தவறாமல் மறுபரிசீலனை செய்வது மற்றும் தளத்தில் செய்யப்பட்ட மாற்றங்களின்படி உங்கள் குறியீட்டைப் புதுப்பித்தல். பைத்தான் மற்றும் பியூட்டிஃபுல்சூப் மூலம் வலைத்தளங்களை ஸ்கிராப்பிங் செய்வது குறித்த இந்த அறிவைக் கொண்டிருப்பதால், உங்கள் திட்டத்திற்குத் தேவையான வலைத் தரவை இப்போது எளிதாகப் பெறலாம்.