मुफ़्त ट्रायल शुरू करें
Searching...
SoBrief
हिन्दी
EnglishEnglish
EspañolSpanish
简体中文Chinese
繁體中文Chinese (Traditional)
FrançaisFrench
DeutschGerman
日本語Japanese
PortuguêsPortuguese
ItalianoItalian
한국어Korean
РусскийRussian
NederlandsDutch
العربيةArabic
PolskiPolish
हिन्दीHindi
Tiếng ViệtVietnamese
SvenskaSwedish
ΕλληνικάGreek
TürkçeTurkish
ไทยThai
ČeštinaCzech
RomânăRomanian
MagyarHungarian
УкраїнськаUkrainian
Bahasa IndonesiaIndonesian
DanskDanish
SuomiFinnish
БългарскиBulgarian
עבריתHebrew
NorskNorwegian
HrvatskiCroatian
CatalàCatalan
SlovenčinaSlovak
LietuviųLithuanian
SlovenščinaSlovenian
СрпскиSerbian
EestiEstonian
LatviešuLatvian
فارسیPersian
മലയാളംMalayalam
தமிழ்Tamil
اردوUrdu
पायथन फॉर डेटा एनालिसिस

पायथन फॉर डेटा एनालिसिस

डेटा रैंगलिंग विद पांडास, नमपाय, और जुपिटर
द्वारा वेस मैककिनी 2011 579 पृष्ठ
4.17
2,000+ रेटिंग्स
सुनें
3 दिन के लिए पूर्ण एक्सेस आज़माएँ
सुनना और बहुत कुछ अनलॉक करें!
जारी रखें

मुख्य बातें

1. Python के अंतर्निहित डेटा स्ट्रक्चर और फंक्शन्स में महारत हासिल करें

Python लंबे समय से कच्चे डेटा को संभालने की भाषा के रूप में लोकप्रिय है, खासकर स्ट्रिंग और टेक्स्ट प्रोसेसिंग में इसकी सरलता के कारण।

मूलभूत आधार। Python के अंतर्निहित डेटा स्ट्रक्चर जैसे लिस्ट, ट्यूपल, डिक्शनरी और सेट डेटा विश्लेषण की नींव हैं। लिस्ट और ट्यूपल क्रमबद्ध अनुक्रमों को संग्रहित करते हैं, जबकि डिक्शनरी और सेट तेज़ खोज और अद्वितीय मानों के भंडारण की सुविधा देते हैं। ये संरचनाएँ विभिन्न ऑपरेशन्स का समर्थन करती हैं:

  • लिस्ट ऑपरेशन्स: append, extend, insert, remove
  • डिक्शनरी मेथड्स: keys(), values(), items()
  • सेट ऑपरेशन्स: union, intersection, difference

Python के अंतर्निहित फंक्शन्स जैसे len(), range(), zip(), और enumerate() डेटा को संभालने के लिए शक्तिशाली उपकरण प्रदान करते हैं। लिस्ट कम्प्रिहेंशन्स पारंपरिक for लूप्स की जगह संक्षिप्त और प्रभावी तरीके से नई लिस्ट बनाने का अवसर देती हैं।

2. प्रभावी संख्यात्मक गणना के लिए NumPy का उपयोग करें

NumPy आंतरिक रूप से डेटा को एक contiguous मेमोरी ब्लॉक में संग्रहित करता है, जो अन्य Python ऑब्जेक्ट्स से स्वतंत्र होता है।

उच्च प्रदर्शन वाले एरे। NumPy का ndarray Python में संख्यात्मक गणना का आधार है, जो प्रदान करता है:

  • बड़े एरेज़ पर कुशल संग्रहण और ऑपरेशन्स
  • विभिन्न आकार के एरेज़ के साथ काम करने के लिए ब्रॉडकास्टिंग क्षमता
  • वेक्टराइज्ड ऑपरेशन्स जो स्पष्ट लूप्स की आवश्यकता को समाप्त करते हैं

NumPy के यूनिवर्सल फंक्शन्स (ufuncs) जैसे np.sqrt(), np.exp(), और np.maximum() तेज़ एलिमेंट-वाइज ऑपरेशन्स करते हैं। ये फंक्शन्स पूरे एरे पर एक साथ काम कर सकते हैं, जिससे प्रदर्शन में उल्लेखनीय सुधार होता है।

लाइनियर अलजेब्रा ऑपरेशन्स, रैंडम नंबर जनरेशन, और फूरियर ट्रांसफॉर्म भी NumPy में उपलब्ध हैं, जो इसे वैज्ञानिक गणना और डेटा विश्लेषण के लिए अनिवार्य उपकरण बनाते हैं।

3. डेटा मैनिपुलेशन और विश्लेषण के लिए pandas का उपयोग करें

pandas इस पुस्तक के अधिकांश भाग में एक प्रमुख उपकरण होगा।

विश्लेषण के लिए डेटा संरचनाएँ। pandas दो मुख्य डेटा संरचनाएँ प्रस्तुत करता है:

  • Series: 1-आयामी लेबल्ड एरे
  • DataFrame: 2-आयामी लेबल्ड डेटा संरचना जिसमें विभिन्न प्रकार के कॉलम हो सकते हैं

ये संरचनाएँ शक्तिशाली इंडेक्सिंग और डेटा संरेखण क्षमताएँ प्रदान करती हैं। मुख्य विशेषताएँ हैं:

  • गायब डेटा का प्रबंधन
  • डेटासेट्स का मर्ज और जॉइन
  • डेटा का पुनःआकारण और पिवटिंग
  • टाइम सीरीज कार्यक्षमता

pandas विभिन्न स्रोतों (CSV, Excel, डेटाबेस) से डेटा लोड करने में उत्कृष्ट है और डेटा क्लीनिंग, ट्रांसफॉर्मेशन, और विश्लेषण के उपकरण प्रदान करता है। इसका NumPy के साथ एकीकरण डेटा मैनिपुलेशन और संख्यात्मक गणना के बीच सहज संक्रमण सुनिश्चित करता है।

4. matplotlib और seaborn के साथ सूचनात्मक विज़ुअलाइज़ेशन बनाएं

matplotlib एक डेस्कटॉप प्लॉटिंग पैकेज है, जो प्रकाशन के लिए उपयुक्त प्लॉट और आकृतियाँ बनाने के लिए डिज़ाइन किया गया है।

दृश्य डेटा अन्वेषण। Matplotlib Python में MATLAB जैसी प्लॉटिंग इंटरफ़ेस प्रदान करता है, जिसमें शामिल हैं:

  • लाइन प्लॉट, स्कैटर प्लॉट, बार चार्ट, हिस्टोग्राम, और अन्य
  • कस्टमाइज़ेबल प्लॉट तत्व (रंग, लेबल, लीजेंड आदि)
  • एक ही आकृति में कई प्लॉट प्रकारों का समर्थन

Seaborn, matplotlib के ऊपर निर्मित, प्रदान करता है:

  • सांख्यिकीय डेटा विज़ुअलाइज़ेशन
  • आकर्षक प्लॉट के लिए बिल्ट-इन थीम्स
  • सामान्य प्लॉट प्रकारों के लिए उच्च-स्तरीय इंटरफ़ेस

ये दोनों लाइब्रेरीज़ मिलकर डेटा अन्वेषण और प्रस्तुति के लिए प्रकाशन-गुणवत्ता वाली विज़ुअलाइज़ेशन बनाने में सक्षम बनाती हैं। pandas के साथ एकीकरण DataFrame और Series ऑब्जेक्ट्स के आसान प्लॉटिंग की सुविधा देता है।

5. टाइम सीरीज डेटा को प्रभावी ढंग से संभालें

टाइम सीरीज डेटा वित्त, अर्थशास्त्र, पारिस्थितिकी, न्यूरोसाइंस, और भौतिकी जैसे विभिन्न क्षेत्रों में एक महत्वपूर्ण संरचित डेटा रूप है।

कालिक डेटा विश्लेषण। pandas समय-आधारित डेटा के साथ काम करने के लिए मजबूत उपकरण प्रदान करता है:

  • DatetimeIndex और PeriodIndex समय-आधारित इंडेक्सिंग के लिए
  • रिसैम्पलिंग और आवृत्ति परिवर्तन
  • रोलिंग विंडो कैलकुलेशन्स
  • टाइम ज़ोन हैंडलिंग

ये विशेषताएँ टाइम सीरीज डेटा के कुशल विश्लेषण की अनुमति देती हैं, जिनमें शामिल हैं:

  • तारीख़ रेंज जनरेशन
  • डेटा शिफ्टिंग
  • लैगिंग और लीडिंग ऑपरेशन्स
  • अवधि-आधारित विश्लेषण

विभिन्न समय आवृत्तियों (दैनिक, मासिक, त्रैमासिक) को संभालने और कैलेंडर-आधारित गणनाएँ करने की क्षमता pandas को वित्तीय और आर्थिक डेटा विश्लेषण के लिए विशेष रूप से उपयोगी बनाती है।

6. डेटा एग्रीगेशन और समूह ऑपरेशन्स करें

किसी डेटासेट को वर्गीकृत करना और प्रत्येक समूह पर कोई फंक्शन लागू करना, चाहे वह एग्रीगेशन हो या ट्रांसफॉर्मेशन, डेटा विश्लेषण कार्यप्रवाह का एक महत्वपूर्ण हिस्सा हो सकता है।

समूह-आधारित विश्लेषण। pandas की groupby कार्यक्षमता शक्तिशाली डेटा एग्रीगेशन और ट्रांसफॉर्मेशन सक्षम बनाती है:

  • एक या अधिक कुंजियों के आधार पर डेटा को समूहों में विभाजित करना
  • प्रत्येक समूह पर फंक्शन्स लागू करना
  • परिणामों को नई डेटा संरचना में संयोजित करना

सामान्य ऑपरेशन्स में शामिल हैं:

  • एग्रीगेशन: योग, औसत, गणना आदि
  • ट्रांसफॉर्मेशन: मानकीकरण, रैंकिंग आदि
  • समूहों पर कस्टम फंक्शन्स लागू करना

यह कार्यक्षमता बड़े डेटासेट्स का सारांश बनाने, समूह-स्तरीय सांख्यिकी निकालने, और श्रेणीबद्ध चर के आधार पर जटिल डेटा ट्रांसफॉर्मेशन करने में विशेष रूप से उपयोगी है।

7. pandas को मॉडलिंग लाइब्रेरीज़ के साथ एकीकृत करें

pandas आमतौर पर तारीख़ों के एरे के साथ काम करने के लिए अभिमुख है, चाहे वे एक्सिस इंडेक्स हों या DataFrame में कॉलम।

मॉडलिंग के लिए डेटा तैयारी। pandas डेटा मैनिपुलेशन और सांख्यिकीय मॉडलिंग के बीच संक्रमण को सरल बनाता है:

  • pandas ऑब्जेक्ट्स और NumPy एरेज़ के बीच आसान रूपांतरण
  • श्रेणीबद्ध डेटा और डमी वेरिएबल निर्माण का समर्थन
  • Patsy के साथ मॉडल फॉर्मूला विनिर्देशन का एकीकरण

ये विशेषताएँ statsmodels और scikit-learn जैसी मॉडलिंग लाइब्रेरीज़ के साथ सहज एकीकरण की अनुमति देती हैं। pandas की डेटा संरचनाएँ इन लाइब्रेरीज़ द्वारा आवश्यक प्रारूप में आसानी से परिवर्तित की जा सकती हैं, जिससे मॉडलिंग प्रक्रिया सरल हो जाती है।

8. statsmodels के साथ सांख्यिकीय मॉडलिंग का अन्वेषण करें

statsmodels एक Python लाइब्रेरी है जो विभिन्न प्रकार के सांख्यिकीय मॉडल फिट करने, सांख्यिकीय परीक्षण करने, और डेटा अन्वेषण एवं विज़ुअलाइज़ेशन के लिए उपयोग होती है।

सांख्यिकीय विश्लेषण उपकरण। Statsmodels कई प्रकार के सांख्यिकीय मॉडल और परीक्षण प्रदान करता है:

  • रैखिक प्रतिगमन मॉडल
  • टाइम सीरीज विश्लेषण
  • सामान्यीकृत रैखिक मॉडल
  • परिकल्पना परीक्षण

यह लाइब्रेरी फॉर्मूला-आधारित API (R जैसी) और एरे-आधारित API दोनों प्रदान करती है, जिससे लचीली मॉडल विनिर्देशन संभव होती है। साथ ही, यह व्यापक मॉडल डायग्नोस्टिक्स और परिणाम व्याख्या उपकरण भी उपलब्ध कराती है।

9. scikit-learn के साथ मशीन लर्निंग लागू करें

scikit-learn Python की सबसे व्यापक रूप से उपयोग की जाने वाली और विश्वसनीय सामान्य-उद्देश्य मशीन लर्निंग टूलकिट्स में से एक है।

मशीन लर्निंग कार्यप्रवाह। Scikit-learn विभिन्न मशीन लर्निंग कार्यों के लिए एक सुसंगत API प्रदान करता है:

  • सुपरवाइज्ड लर्निंग: वर्गीकरण, प्रतिगमन
  • अनसुपरवाइज्ड लर्निंग: क्लस्टरिंग, डायमेंशनलिटी रिडक्शन
  • मॉडल चयन और मूल्यांकन
  • डेटा प्रीप्रोसेसिंग और फीचर इंजीनियरिंग

मुख्य विशेषताएँ हैं:

  • मॉडलों में सुसंगत fit/predict API
  • क्रॉस-वैलिडेशन उपकरण
  • एंड-टू-एंड वर्कफ़्लोज़ के लिए पाइपलाइन निर्माण
  • व्यापक दस्तावेज़ीकरण और उदाहरण

इस लाइब्रेरी का pandas और NumPy के साथ एकीकरण मशीन लर्निंग तकनीकों को डेटा विश्लेषण कार्यप्रवाह में सहजता से शामिल करने की अनुमति देता है।

अंतिम अपडेट:

Report Issue

समीक्षा सारांश

4.17 में से 5
औसत 2,000+ Goodreads और Amazon से रेटिंग्स.

Python for Data Analysis पुस्तक को इसके पांडा लाइब्रेरी और पायथन में डेटा प्रबंधन की व्यापक व्याख्या के लिए अधिकांशतः सकारात्मक समीक्षा मिली है। पाठक इसकी व्यावहारिक उदाहरणों और स्पष्ट समझाइश की प्रशंसा करते हैं, खासकर उन लोगों के लिए जो अन्य प्रोग्रामिंग भाषाओं से पायथन की ओर आ रहे हैं। कुछ समीक्षक इस बात पर आपत्ति जताते हैं कि पुस्तक में पांडा पर अधिक ध्यान दिया गया है, जबकि व्यापक डेटा विश्लेषण की अवधारणाओं पर कम, और साथ ही यादृच्छिक डेटा सेट के उपयोग को लेकर भी आलोचना होती है। यह पुस्तक डेटा को व्यवस्थित करने की कला सीखने के लिए मूल्यवान मानी जाती है, हालांकि अनुभवी उपयोगकर्ताओं के लिए यह कभी-कभी अधिक शब्दों में लिखी हुई लग सकती है। कुल मिलाकर, इसे पांडा और पायथन आधारित डेटा विश्लेषण में महारत हासिल करने के लिए एक उपयोगी संसाधन माना जाता है।

Your rating:
4.56
264 रेटिंग्स
Want to read the full book?

अक्सर पूछे जाने वाले प्रश्न

What's Python for Data Analysis about?

  • Focus on Data Manipulation: The book is centered on manipulating, processing, cleaning, and analyzing data using Python. It provides a comprehensive guide to the Python programming language and its data-oriented library ecosystem.
  • Tools and Libraries: It emphasizes essential libraries like pandas, NumPy, and Jupyter, which are crucial for data analysis tasks. These tools are foundational for anyone looking to become an effective data analyst.
  • Practical Approach: The book is designed to be practical, offering hands-on examples and code snippets that readers can directly apply to their data analysis projects.

Why should I read Python for Data Analysis?

  • Comprehensive Resource: The book is a key resource for university courses and professionals, covering essential tools and techniques for data analysis in Python.
  • Authoritative Source: Written by Wes McKinney, the creator of pandas, it offers insights directly from an expert, making it a valuable resource.
  • Updated Content: The third edition is updated with current versions of Python, NumPy, and pandas, ensuring readers learn the most relevant practices.

What are the key takeaways of Python for Data Analysis?

  • Data Wrangling Skills: Readers will learn how to manipulate and clean data effectively using pandas, focusing on reshaping, merging, and aggregating data.
  • Understanding NumPy: The book provides a solid foundation in NumPy, crucial for numerical computing in Python, enhancing data analysis capabilities.
  • Visualization Techniques: It covers basic data visualization using matplotlib, allowing readers to present their data analysis results effectively.

What are the best quotes from Python for Data Analysis and what do they mean?

  • "Python has become a popular and widespread language for data analysis.": Highlights Python's growing importance in data science, indicating its value for future career opportunities.
  • "It’s a good idea to be familiar with the documentation for the various statistics or machine learning frameworks.": Emphasizes the importance of staying updated with the latest tools and libraries in the evolving field of data science.
  • "The programming skills you have developed here will stay relevant for a long time into the future.": Reassures readers that the skills learned will remain applicable, making it a worthwhile endeavor.

How does Python for Data Analysis approach data wrangling?

  • Step-by-Step Guidance: The book provides a structured approach to data wrangling, starting with data loading and cleaning, making it easy to follow.
  • Use of Real Datasets: By using real datasets, it allows readers to practice data wrangling techniques in a realistic context, reinforcing concepts.
  • Focus on pandas: It extensively covers pandas, detailing its functionalities for data manipulation, crucial for effective data wrangling in Python.

What are the essential Python libraries discussed in Python for Data Analysis?

  • NumPy: Fundamental for numerical computing, providing support for multidimensional arrays and mathematical functions, essential for efficient data manipulation.
  • pandas: Emphasized for data manipulation and analysis, particularly for working with structured data, introducing key data structures like Series and DataFrame.
  • matplotlib: Used for creating visualizations, the book provides guidance on using it to visualize data effectively.

How does Python for Data Analysis help with data cleaning?

  • Data Preparation Techniques: Covers techniques for cleaning and preparing data, including handling missing values, filtering, and transforming data.
  • Using pandas for Cleaning: Provides practical examples of using pandas to clean data, such as removing duplicates and filling in missing values.
  • Real-World Examples: Includes real-world datasets and scenarios, allowing readers to see how data cleaning is applied in practice.

What is the significance of the DataFrame in Python for Data Analysis?

  • Tabular Data Structure: DataFrame is a two-dimensional, size-mutable, and potentially heterogeneous tabular data structure with labeled axes.
  • Data Manipulation: Allows for easy manipulation of data, including filtering, grouping, and aggregating, with numerous examples provided.
  • Integration with Other Libraries: Integrates well with other libraries like NumPy and matplotlib, facilitating complex data analysis tasks.

How does Python for Data Analysis address missing data?

  • Identifying Missing Values: Discusses methods for identifying and handling missing data, emphasizing the importance of recognizing missing values.
  • Filling and Dropping: Covers techniques for filling missing values and dropping rows or columns with missing data, allowing for dataset-specific approaches.
  • Using pandas Functions: Demonstrates how to use pandas functions like isna() and fillna() to manage missing data effectively.

What is the groupby method in pandas as explained in Python for Data Analysis?

  • Data Aggregation: The groupby method is used to split data into groups based on criteria, allowing for aggregation and transformation.
  • Flexible Grouping: Supports grouping by one or more columns, with various aggregation functions like mean, sum, and count.
  • Example Usage: For instance, df.groupby("key").mean() computes the mean of each group defined by unique values in the "key" column.

How can I create a pivot table in pandas as described in Python for Data Analysis?

  • Using pivot_table: Allows summarizing data by one or more keys, arranging data in a rectangular format.
  • Aggregation Functions: Specify aggregation functions like mean, sum, or count to compute statistics for the pivot table.
  • Example: df.pivot_table(index="day", columns="smoker", values="tip_pct", aggfunc="mean") creates a pivot table showing average tip percentages by day and smoking status.

How do I visualize data using pandas as per Python for Data Analysis?

  • Built-in Plotting: Pandas has built-in plotting capabilities through the plot attribute, simplifying visualizations directly from DataFrames and Series.
  • Integration with Matplotlib: Integrates well with matplotlib, allowing for customization of plots using its extensive features.
  • Example: df.plot(kind="bar") creates a bar plot of the DataFrame, demonstrating the ease of visualization with pandas.

लेखक के बारे में

वेस मैककिनी पायथन डेटा साइंस समुदाय के एक प्रमुख व्यक्तित्व हैं, जिन्हें पांडा लाइब्रेरी के निर्माता के रूप में जाना जाता है। डेटा विश्लेषण और प्रबंधन में उनकी विशेषज्ञता उनके लेखन में स्पष्ट रूप से झलकती है, जहाँ वे सैद्धांतिक ज्ञान को व्यावहारिक अनुभवों के साथ जोड़ते हैं। एक सॉफ्टवेयर डेवलपर और डेटा वैज्ञानिक के रूप में उनका अनुभव पायथन आधारित डेटा विश्लेषण सिखाने के उनके दृष्टिकोण को प्रभावशाली बनाता है। उनकी पुस्तक को पांडा की कार्यक्षमता की स्पष्ट व्याख्या और व्यापक कवरेज के लिए सराहा गया है। मैककिनी का कार्य पायथन के डेटा विश्लेषण क्षेत्र में महत्वपूर्ण योगदान रहा है, जिसने जटिल डेटा प्रबंधन कार्यों को प्रोग्रामर और विश्लेषकों दोनों के लिए अधिक सुलभ बना दिया है।

Follow
सुनें
Now playing
पायथन फॉर डेटा एनालिसिस
0:00
-0:00
Now playing
पायथन फॉर डेटा एनालिसिस
0:00
-0:00
1x
Queue
Home
Swipe
Library
Get App
Try Full Access for 3 Days
Listen, bookmark, and more
Compare Features Free Pro
📖 Read Summaries
Read unlimited summaries. Free users get 3 per month
🎧 Listen to Summaries
Listen to unlimited summaries in 40 languages
❤️ Unlimited Bookmarks
Free users are limited to 4
📜 Unlimited History
Free users are limited to 4
📥 Unlimited Downloads
Free users are limited to 1
Risk-Free Timeline
आज: तुरंत एक्सेस पाएं
26,000+ किताबों का पूरा सारांश सुनें। यानी 12,000+ घंटे का ऑडियो!
दिन 2: ट्रायल रिमाइंडर
हम आपको सूचना भेजेंगे कि आपका ट्रायल जल्द समाप्त हो रहा है।
दिन 3: आपकी सदस्यता शुरू होगी
आपसे शुल्क लिया जाएगा Jun 13,
उससे पहले कभी भी रद्द करें।
Consume 2.8× More Books
2.8× more books Listening Reading
Our users love us
600,000+ readers
Trustpilot Rating
TrustPilot
4.6 Excellent
This site is a total game-changer. I've been flying through book summaries like never before. Highly, highly recommend.
— Dave G
Worth my money and time, and really well made. I've never seen this quality of summaries on other websites. Very helpful!
— Em
Highly recommended!! Fantastic service. Perfect for those that want a little more than a teaser but not all the intricate details of a full audio book.
— Greg M
Save 62%
Yearly
$119.88 $44.99/year/yr
$3.75/mo
Monthly
$9.99/mo
Start a 3-Day Free Trial
3 days free, then $44.99/year. Cancel anytime.
Unlock a world of fiction & nonfiction books
26,000+ books for the price of 2 books
Read any book in 10 minutes
Discover new books like Tinder
Request any book if it's not summarized
Read more books than anyone you know
#1 app for book lovers
Lifelike & immersive summaries
30-day money-back guarantee
Download summaries in EPUBs or PDFs
Cancel anytime in a few clicks
Scanner
Find a barcode to scan

We have a special gift for you
Open
38% OFF
DISCOUNT FOR YOU
$79.99
$49.99/year
only $4.16 per month
Continue
2 taps to start, super easy to cancel
Settings
General
Widget
Loading...
We have a special gift for you
Open
38% OFF
DISCOUNT FOR YOU
$79.99
$49.99/year
only $4.16 per month
Continue
2 taps to start, super easy to cancel