در این مطلب، ویدئو داده های بزرگ: استفاده از Spark از پایتون و ژوپیتر با زیرنویس فارسی را برای دانلود قرار داده ام. شما میتوانید با پرداخت 15 هزار تومان ، این ویدیو به علاوه تمامی فیلم های سایت را دانلود کنید.اکثر فیلم های سایت به زبان انگلیسی می باشند. این ویدئو دارای زیرنویس فارسی ترجمه شده توسط هوش مصنوعی می باشد که میتوانید نمونه ای از آن را در قسمت پایانی این مطلب مشاهده کنید.
تصاویر این ویدئو:
قسمتی از زیرنویس این فیلم:
00:00:00,030 –> 00:00:01,920
ریاضیات و فیزیک کاربردی در کوئینز و
2
00:00:01,920 –> 00:00:03,449
سپس حفظ چیزهای سلطنتی به کینگز
3
00:00:03,449 –> 00:00:05,520
کالج لندن رفت تا یک دکترا در
4
00:00:05,520 –> 00:00:06,660
مدلهای قلب مانند آنچه میتوانید
5
00:00:06,660 –> 00:00:08,550
در اینجا در گوشه سمت راست بالا ببینید که
6
00:00:08,550 –> 00:00:09,900
چند سال
7
00:00:09,900 –> 00:00:12,570
قبل از بازگشت در اتریش ادامه دادم. به لندن برای
8
00:00:12,570 –> 00:00:15,770
کار در مهندسی نرم افزار ASIS
9
00:00:15,770 –> 00:00:18,359
asi که ممکن است درباره ما شنیده باشید که در
10
00:00:18,359 –> 00:00:20,609
آن یک شرکت علمی در لندن بازدید شده است،
11
00:00:20,609 –> 00:00:23,100
ما اساساً خدمات هوش مصنوعی ارائه می دهیم
12
00:00:23,100 –> 00:00:26,550
که تا حدی یک
13
00:00:26,550 –> 00:00:32,780
مشاوره است که با خطوط هوایی کار می کند،
14
00:00:32,780 –> 00:00:35,489
اما بخشی که من روی آن کار می کنم
15
00:00:35,489 –> 00:00:36,870
بخش عمده ای از شرکت نیز در
16
00:00:36,870 –> 00:00:38,280
حال توسعه پلتفرم علم داده ما است،
17
00:00:38,280 –> 00:00:42,930
این یک شرلوک دهان آنهاست، در حالی که در
18
00:00:42,930 –> 00:00:44,760
شرلوک از طیف گسترده ای از
19
00:00:44,760 –> 00:00:46,440
فناوری ها مانند واکنش دهنده
20
00:00:46,440 –> 00:00:48,600
اسکالا پایتون استفاده می کنیم، به این معنی که مانند بخشی
21
00:00:48,600 –> 00:00:51,180
اصلی از کارهایی است که هر دو از علم داده انجام می دهیم.
22
00:00:51,180 –> 00:00:53,070
این زبان اصلی است که
23
00:00:53,070 –> 00:00:54,780
ما برای انجام آن استفاده می کنیم. من تجزیه و تحلیل
24
00:00:54,780 –> 00:00:57,989
و مدلسازی کردم، اما همچنین در ساخت
25
00:00:57,989 –> 00:01:01,800
شرلوک، بنابراین نکته اصلی
26
00:01:01,800 –> 00:01:04,938
صحبت امروز کمی در مورد نحوه انجام شما است.
27
00:01:04,938 –> 00:01:08,909
وضعیت زنده در پایتون، بنابراین در برخی از
28
00:01:08,909 –> 00:01:10,229
برنامهها ممکن است تعداد زیادی ترابایت داده
29
00:01:10,229 –> 00:01:12,180
داشته باشید که میخواهید پردازش کنید، اما البته
30
00:01:12,180 –> 00:01:13,920
اگر
31
00:01:13,920 –> 00:01:15,600
فقط کاری را روی لپتاپ
32
00:01:15,600 –> 00:01:16,950
یا سرور کوچکتر و کلاینتی
33
00:01:16,950 –> 00:01:19,229
که میخواهید انجام دهید، مانند تکنیکهای سنتی استفاده کنید. زمان زیادی است
34
00:01:19,229 –> 00:01:21,240
که تمام این دادهها را مرور میکنید و بنابراین در حالی
35
00:01:21,240 –> 00:01:23,670
که ممکن است در نهایت از
36
00:01:23,670 –> 00:01:25,890
نوشیدن یک فنجان قهوه لذت ببرید،
37
00:01:25,890 –> 00:01:26,909
سرعت شما را کاهش میدهد، پس
38
00:01:26,909 –> 00:01:28,350
واقعاً نمیتوانید دوست داشته باشید این کار را سریع انجام دهید
39
00:01:28,350 –> 00:01:30,180
و دوست داشته باشید. مدلهایی را که میسازید بهبود ببخشید،
40
00:01:30,180 –> 00:01:32,189
41
00:01:32,189 –> 00:01:33,360
بهطور ایدهآل چیزی که دوست دارید انجام دهید این است که
42
00:01:33,360 –> 00:01:34,650
تعداد زیادی رایانه داشته باشید که همگی
43
00:01:34,650 –> 00:01:36,509
بتوانند روی مشکل شما با هم کار کنند و
44
00:01:36,509 –> 00:01:38,520
وظایف شما را انجام دهند و کارهای بیشتری را در
45
00:01:38,520 –> 00:01:41,759
روز انجام دهند. بنابراین یکی از ابزارهایی که میتوانید برای
46
00:01:41,759 –> 00:01:43,740
انجام این کار استفاده کنید اسپارک Apache است که مطمئنم
47
00:01:43,740 –> 00:01:45,810
همه شما درباره آن شنیدهاید، اما اساساً
48
00:01:45,810 –> 00:01:47,850
جرقه آپاچی با
49
00:01:47,850 –> 00:01:50,130
قلم مو بسیار وسیع به شما امکان میدهد
50
00:01:50,130 –> 00:01:52,320
مجموعهای از رایانهها را هماهنگ کنید که
51
00:01:52,320 –> 00:01:55,200
کارهای مفیدی را برای شما انجام دهند. مقداری د
52
00:01:55,200 –> 00:01:57,750
برنامه رودخانه ای که قادر است
53
00:01:57,750 –> 00:01:59,880
این کارگران را برای انجام برخی از وظایف
54
00:01:59,880 –> 00:02:03,270
که می توانند از یک فروشگاه داده خارجی یا
55
00:02:03,270 –> 00:02:05,640
داخلی بخوانند و نتایج
56
00:02:05,640 –> 00:02:08,550
را به آن بنویسند و همه آنها جرقه ای ایجاد
57
00:02:08,550 –> 00:02:10,590
کنند، ارتباط همه این
58
00:02:10,590 –> 00:02:12,180
اجزا را بین یکدیگر هماهنگ می کند
59
00:02:12,180 –> 00:02:14,670
که این خوشه بزرگ رایانهها
60
00:02:14,670 –> 00:02:17,430
میتوانند روی مشکل بزرگ شما
61
00:02:17,430 –> 00:02:21,030
مشکل خرد شدن کلان دادهها به صورت هماهنگ کار کنند،
62
00:02:21,030 –> 00:02:22,349
چندین روش وجود دارد که میتوانید برنامه درایور خود را اجرا کنید
63
00:02:22,349 –> 00:02:23,849
، اما امروز قصد دارم
64
00:02:23,849 –> 00:02:27,000
در مورد استفاده از Apache Livi صحبت کنم که
65
00:02:27,000 –> 00:02:30,000
سرور REST API است که میتواند در بالای دستگاه
66
00:02:30,000 –> 00:02:33,689
شما قرار گیرد. خوشه جرقه و جلسات اسپارک من
67
00:02:33,689 –> 00:02:36,150
و اجرای کد شما در داخل خوشه اسپارک
68
00:02:36,150 –> 00:02:38,219
نکته خوب در مورد Olivia این است
69
00:02:38,219 –> 00:02:39,599
که چون این رابط استراحت را ارائه می دهد، به
70
00:02:39,599 –> 00:02:41,129
این معنی است که می توانید
71
00:02:41,129 –> 00:02:42,389
spark cluster خود را در جایی اجرا کنید که به
72
00:02:42,389 –> 00:02:45,389
طور بالقوه توسط بخش زیرساخت فناوری اطلاعات شرکت شما مدیریت می شود.
73
00:02:45,389 –> 00:02:47,659
74
00:02:47,659 –> 00:02:52,409
75
00:02:52,409 –> 00:02:54,180
دسترسی نسبتاً ساده ای دارد که
76
00:02:54,180 –> 00:02:57,120
می توانید کد خود را از خارج اجرا کنید بدون
77
00:02:57,120 –> 00:02:59,760
اینکه نیاز به تنظیم زیاد داشته باشید، بنابراین
78
00:02:59,760 –> 00:03:01,189
بله، ما می خواهیم در مورد
79
00:03:01,189 –> 00:03:03,750
استفاده از پایتون یا بهویژه
80
00:03:03,750 –> 00:03:06,810
استفاده از مشتری برای اجرای کد در داخل و
81
00:03:06,810 –> 00:03:09,889
خارج از خوشه صحبت
82
00:03:09,889 –> 00:03:13,859
میکنم، اما هماهنگسازی جرقه در داخل خوشه انجام میشود، بنابراین میخواهم
83
00:03:13,859 –> 00:03:18,030
سریع به شما نشان دهم که میخواهم
84
00:03:18,030 –> 00:03:20,370
به یک خوشه جرقه وصل شوم،
85
00:03:20,370 –> 00:03:21,840
دادهها را بارگیری میکنم و انجام میدهم. برخی از تجزیه و تحلیل داده های اولیه به
86
00:03:21,840 –> 00:03:24,359
شما نشان می دهد که چگونه می توانید داده ها را مستقیماً به
87
00:03:24,359 –> 00:03:26,310
دفترچه یادداشت خود وارد کنید تا
88
00:03:26,310 –> 00:03:30,329
تجزیه و تحلیل یا ترسیم بیشتری انجام دهید، من فقط
89
00:03:30,329 –> 00:03:31,979
به سرعت به شما نشان خواهم داد که
90
00:03:31,979 –> 00:03:33,750
ابزارهای یادگیری ماشینی خوبی وجود دارد که
91
00:03:33,750 –> 00:03:37,859
بر روی جرقه ساخته شده اند و همچنین خارج از
92
00:03:37,859 –> 00:03:39,750
نوتبوک چگونه میتوانید از
93
00:03:39,750 –> 00:03:41,759
اتصال با Apache Levy برای
94
00:03:41,759 –> 00:03:44,819
انجام کارهای مفید
95
00:03:44,819 –> 00:03:47,939
استفاده کنید.
96
00:03:47,939 –> 00:03:50,099
97
00:03:50,099 –> 00:03:52,470
98
00:03:52,470 –> 00:03:55,379
99
00:03:55,379 –> 00:03:57,090
بررسی ها، بنابراین اگر این
100
00:03:57,090 –> 00:03:58,739
نظرات را تصور کنید که در پایین
101
00:03:58,739 –> 00:04:00,569
صفحه محصول در آمازون می بینید که در آن مردم می
102
00:04:00,569 –> 00:04:03,120
نویسند همه اینها وحشتناک بود و من به
103
00:04:03,120 –> 00:04:06,479
آن یک ستاره یا برعکس می دهم، این چیزی است که
104
00:04:06,479 –> 00:04:09,389
w درست
105
00:04:09,389 –> 00:04:11,989
قبل از شروع صحبت در خوشه آمازون
106
00:04:11,989 –> 00:04:14,970
EMR EMR سرویس خوبی است که
107
00:04:14,970 –> 00:04:16,978
آمازون
108
00:04:16,978 –> 00:04:18,659
به راحتی درخشش جرقه ارکستراتور را به محض اینکه
109
00:04:18,659 –> 00:04:20,070
متوجه شوید همه دستورات درستی را که
110
00:04:20,070 –> 00:04:22,519
باید بخشی از آن را به آن بدهید ارائه می دهد
111
00:04:22,560 –> 00:04:24,699
. نسخه ی نمایشی من قبلاً
112
00:04:24,699 –> 00:04:26,169
قبل از بحث کمی خراب شده است، بنابراین بیایید ببینیم که چگونه
113
00:04:26,169 –> 00:04:26,740
پیش می رود،
114
00:04:26,740 –> 00:04:30,039
اما هسته اصلی چیزی که من امروز در مورد آن صحبت می کنم
115
00:04:30,039 –> 00:04:31,539
استفاده از این ابزار واقعا فوق العاده
116
00:04:31,539 –> 00:04:33,610
است برخی از دوستان که نوشته اند
117
00:04:33,610 –> 00:04:36,669
spark magic این است که شما
118
00:04:36,669 –> 00:04:38,349
فقط می توانید این را از طریق pip نصب کنید. به طوری که
119
00:04:38,349 –> 00:04:41,430
در نوت بوک مشتری شما موجود است
120
00:04:41,430 –> 00:04:44,710
، یک صفحه github وجود دارد، اما با آن
121
00:04:44,710 –> 00:04:50,650
من مستقیماً به نسخه نمایشی خود می روم
122
00:04:50,650 –> 00:04:54,430
که در یک کتاب جدید در اینجا دارم، بنابراین می توانم ببینم
123
00:04:54,430 –> 00:04:59,860
که خیلی خوب است، بنابراین می توانید
124
00:04:59,860 –> 00:05:00,969
جادوی جرقه را یک بار کار کنید. شما
125
00:05:00,969 –> 00:05:03,159
آن را بر روی سرور خود نصب کرده اید
126
00:05:03,159 –> 00:05:07,900
فقط برای استفاده از این دستور جادویی load txt استفاده کنید
127
00:05:07,900 –> 00:05:10,330
تا جادوهای جرقه ای را در
128
00:05:10,330 –> 00:05:12,610
نوت بوک شما بارگیری کند و این
129
00:05:12,610 –> 00:05:15,039
دستور جادویی جرقه را به آنها ارائه دهد که اگر با
130
00:05:15,039 –> 00:05:16,270
علامت سوال اجرا کنید می توانید مقداری
131
00:05:16,270 –> 00:05:18,580
d را مشاهده کنید. ocumentation، بنابراین یک
132
00:05:18,580 –> 00:05:20,650
سری ویژگی های مختلف در اینجا وجود دارد،
133
00:05:20,650 –> 00:05:22,539
مانند ایجاد و مدیریت
134
00:05:22,539 –> 00:05:25,930
جلسات spark و اجرای کد، اما
135
00:05:25,930 –> 00:05:27,310
برای شروع کاری که باید انجام دهید
136
00:05:27,310 –> 00:05:29,770
استفاده از دستور spark add در اینجا است که باید
137
00:05:29,770 –> 00:05:31,089
نامی برای آن بگذارید. زبانی را انتخاب کنید که
138
00:05:31,089 –> 00:05:33,490
بتوانید کد اسپارک خود را در
139
00:05:33,490 –> 00:05:36,370
اسکالا پایتون یا R اجرا کنید زیرا این یک کنفرانس پایتون است،
140
00:05:36,370 –> 00:05:37,659
من فکر میکردم پایتون انتخاب معقولی به نظر میرسد
141
00:05:37,659 –> 00:05:41,169
و همچنین برای برخی
142
00:05:41,169 –> 00:05:44,620
مانند مکانیسم آموزشی و
143
00:05:44,620 –> 00:05:47,259
URL سرور Livi را در این مورد
144
00:05:47,259 –> 00:05:48,909
دوست دارند. من فقط
145
00:05:48,909 –> 00:05:50,560
با مقداری تونل SSH به خوشه وصل
146
00:05:50,560 –> 00:05:52,060
میشوم، بنابراین هیچ احراز هویتی وجود ندارد و من فقط
147
00:05:52,060 –> 00:05:53,589
میروم، به همین دلیل به نظر میرسد که
148
00:05:53,589 –> 00:05:55,990
روی ماشین محلی است که ما فقط میخواهیم اجرا
149
00:05:55,990 –> 00:05:58,509
کنیم که شروع به ایجاد دستگاهی میکند که با آن
150
00:05:58,509 –> 00:06:00,339
صحبت میکند تا ایجاد کند.
151
00:06:00,339 –> 00:06:02,979
جلسه spark که چند ثانیه طول می کشد پس
152
00:06:02,979 –> 00:06:04,539
از اتمام آن، می توانم این دستور spot info را اجرا کنم
153
00:06:04,539 –> 00:06:06,460
تا اطلاعات مربوط
154
00:06:06,460 –> 00:06:08,529
به جلسات جرقه ای را ببینم که Mattox در
155
00:06:08,529 –> 00:06:10,810
حال حاضر در این پخش کننده ای
156
00:06:10,810 –> 00:06:13,870
که من متصل کرده ام مدیریت می کند تا زمانی
157
00:06:13,870 –> 00:06:15,129
که منتظر اجرای آن هستم، میتوانید ببینید
158
00:06:15,129 –> 00:06:16,330
که دستورات اضافی در اینجا وجود دارد، مانند
159
00:06:16,330 –> 00:06:18,339
حذف یک جلسه و پاک کردن،
160
00:06:18,339 –> 00:06:19,569
تمام جلساتی
161
00:06:19,569 –> 00:06:20,949
را که در حال حاضر به آنها متصل شدهاید حذف میکند، بنابراین میتوانید به
162
00:06:20,949 –> 00:06:24,399
خوبی در این نوت بوک در این صحبت
163
00:06:24,399 –> 00:06:26,139
من فقط در مورد صحبت کردن در مورد وضعیت صحبت می کنم،
164
00:06:26,139 –> 00:06:28,180
اما فقط یک
165
00:06:28,180 –> 00:06:29,770
جلسه جرقه مدیریت می شود، می توانید
166
00:06:29,770 –> 00:06:31,300
چندین جلسه را همزمان اجرا کنید،
167
00:06:31,300 –> 00:06:32,529
به زبان های مختلف و غیره اگر
168
00:06:32,529 –> 00:06:34,240
این چیزی است که برای شما مفید است،
169
00:06:34,240 –> 00:06:36,100
اما در اینجا می توانید ببینید که جلسه من
170
00:06:36,100 –> 00:06:37,780
با موفقیت انجام شد. تکمیل شد و سپس هر زمان
171
00:06:37,780 –> 00:06:39,400
که جرقه ای در یک اجرا وجود داشته باشد، می توانم
172
00:06:39,400 –> 00:06:41,590
نام جلسات و غیره را ببینم و اسپارک
173
00:06:41,590 –> 00:06:45,610
MAGIX تعدادی ویجت و چیزهای مشتری را ارائه می دهد
174
00:06:45,610 –> 00:06:46,780
که می توانید آنها را بارگذاری کنید
175
00:06:46,780 –> 00:06:48,220
تا نمای تعاملی بیشتری در مورد این
176
00:06:48,220 –> 00:06:50,170
اطلاعات به آنها ارائه دهید، اما به نظر من
177
00:06:50,170 –> 00:06:51,610
راحت تر است. فقط برای استفاده از این دستورات جادویی،
178
00:06:51,610 –> 00:06:55,300
بنابراین هنگامی که جلسه خود را
179
00:06:55,300 –> 00:06:57,280
اجرا کردید، می توانید از این
180
00:06:57,280 –> 00:07:00,880
فرمان جادویی علامت دو درصدی spark cell استفاده کنید
181
00:07:00,880 –> 00:07:02,860
و هر زمان که این را اجرا می کنم
182
00:07:02,860 –> 00:07:04,750
این کار انجام می دهد. تمام کدهای موجود در این سلول
183
00:07:04,750 –> 00:07:06,880
به جای اینکه در مفسر محلی Python من در
184
00:07:06,880 –> 00:07:08,710
داخل نوت بوک اجرا
185
00:07:08,710 –> 00:07:10,930
شوند، به عنوان یک نقطه قوت
186
00:07:10,930 –> 00:07:12,730
به سرور Livi فرستاده می شود و در آنجا
187
00:07:12,730 –> 00:07:15,640
اجرا می شود، سپس بازیابی می
188
00:07:15,640 –> 00:07:17,410
شود و به گونه ای نمایش داده می شود که گویی آن را اجرا کرده ام. در این
189
00:07:17,410 –> 00:07:19,720
سلول، بنابراین اگر این را در اینجا اجرا کنم، می توانید ببینید
190
00:07:19,720 –> 00:07:21,490
hello world چاپ شده است، اما فقط برای
191
00:07:21,490 –> 00:07:22,630
متقاعد کردن شما که در واقع
192
00:07:22,630 –> 00:07:24,040
متفاوت است با اجرای آن در
193
00:07:24,040 –> 00:07:27,280
سلول محلی اینجا، من دو سلول دارم که
194
00:07:27,280 –> 00:07:29,200
اساساً کد مشابهی دارند. یکی از
195
00:07:29,200 –> 00:07:30,850
آنها متریک درخشش را دارد و دیگری
196
00:07:30,850 –> 00:07:32,410
ندارد، میتوانید ببینید که من به
197
00:07:32,410 –> 00:07:33,760
صورت محلی در نوتبوک اجرا
198
00:07:33,760 –> 00:07:36,580
میکنم، پایتون 365 را روی این میزبان دارم، اما در
199
00:07:36,580 –> 00:07:38,470
خوشه هوشمند پایتون 2
200
00:07:38,470 –> 00:07:41,980
7 را با نام لیست دیگری اجرا میکند. این
201
00:07:41,980 –> 00:07:44,710
خیلی مفید نیست، اما اجازه دهید در
202
00:07:44,710 –> 00:07:46,390
واقع به بارگیری برخی از داده ها در این
203
00:07:46,390 –> 00:07:47,670
بخش
204
00:07:47,670 –> 00:07:50,800
205
00:07:50,800 –> 00:07:55,390
206
00:07:55,390 –> 00:07:57,550
207
00:07:57,550 –> 00:07:59,140
208
00:07:59,140 –> 00:08:01,600
نوار ادامه دهیم. با استفاده از spark
209
00:08:01,600 –> 00:08:06,480
read here، من در حال خواندن یک داده با فرمت پارک
210
00:08:06,480 –> 00:08:10,000
از این مجموعه داده سوء استفاده از محصول آمازون
211
00:08:10,000 –> 00:08:11,830
هستم، همانطور که توضیح دادم، دارم میخوانم که
212
00:08:11,830 –> 00:08:14,320
از s3 میتوانید مجموعه دادههای بزرگ را بخوانید اما
213
00:08:14,320 –> 00:08:17,830
این سه مجموعه بسیار سریع دارد و من فقط
214
00:08:17,830 –> 00:08:19,300
میتوانم آن سلول را اجرا کنم چارچوب داده را
215
00:08:19,300 –> 00:08:21,370
از آن مجموعه داده ایجاد کنید و اجرای آن
216
00:08:21,370 –> 00:08:25,060
شاید فقط چند ثانیه طول بکشد تا یک
217
00:08:25,060 –> 00:08:26,620
چیز مهم را متوجه شوید که اگر
218
00:08:26,620 –> 00:08:29,200
همیشه از اسپارک استفاده می کنید، من فقط
219
00:08:29,200 –> 00:08:32,770
یک نوع صحبت بسیار گذرا مانند اطلاعات کمی در مورد آن ارائه خواهم کرد.
220
00:08:32,770 –> 00:08:33,940
221
00:08:33,940 –> 00:08:35,620
در این سخنرانی چگونه واقعاً در اسپارک برنامهنویسی میکنید،
222
00:08:35,620 –> 00:08:37,479
اما نکته مهمی که باید بدانید این است
223
00:08:37,479 –> 00:08:39,580
که دوستان اسپارک با تنبلی ارزیابی میشوند
224
00:08:39,580 –> 00:08:41,049
به این معنا که هر زمان که
225
00:08:41,049 –> 00:08:42,820
تغییری روی آن اعمال
226
00:08:42,820 –> 00:08:44,950
میکنید، تا زمانی که کاری را در خط لوله خود انجام ندهید، دادهها هنوز محاسبه نمیشوند.
227
00:08:44,950 –> 00:08:46,990
228
00:08:46,990 –> 00:08:48,610
عملیات جمعآوری آن
229
00:08:48,610 –> 00:08:50,959
، نکته مهمی است که باید
230
00:08:50,959 –> 00:08:53,360
هر زمان که کد خود را میخوانید به خاطر بسپارید،
231
00:08:53,360 –> 00:08:55,610
اما دلیل اجرای آن تنها در چند
232
00:08:55,610 –> 00:08:57,529
ثانیه این است که فریمی از
233
00:08:57,529 –> 00:08:59,389
130 میلیون بررسی محصول
234
00:08:59,389 –> 00:09:03,170
در واقع انجام نشده است. با این حال، کاری که می توانید انجام دهید
235
00:09:03,170 –> 00:09:07,730
این است که می توانید
236
00:09:07,730 –> 00:09:09,260
طرح ساختار قاب داده را
237
00:09:09,260 –> 00:09:12,350
بدون نیاز به ارزیابی محتویات چاپ
238
00:09:12,350 –> 00:09:14,480
کنید، زیرا هر زمان
239
00:09:14,480 –> 00:09:16,279
که یک قاب شام با
240
00:09:16,279 –> 00:09:17,779
ستون عددی در آن داشته باشید و آن را در ضرب کنید
241
00:09:17,779 –> 00:09:19,579
spark می تواند بداند که شما
242
00:09:19,579 –> 00:09:21,320
یک ستون عددی خواهید داشت و من آن را با
243
00:09:21,320 –> 00:09:23,329
نام خاصی قرار می دهم که آیا واقعاً
244
00:09:23,329 –> 00:09:26,209
آن مقادیر را ارزیابی می کنم، بنابراین
245
00:09:26,209 –> 00:09:27,740
اگر می خواهید
246
00:09:27,740 –> 00:09:29,510
نوعی تجزیه و تحلیل داده های تعاملی را با
247
00:09:29,510 –> 00:09:31,279
جرقه از انجام دهید، اولین نوع راهنمایی من است. دفترچه یادداشت جبر قرار
248
00:09:31,279 –> 00:09:33,110
است به این روش طرحواره چاپی نگاهی بیندازید، زیرا
249
00:09:33,110 –> 00:09:34,639
هر زمان که آن را اجرا کنید،
250
00:09:34,639 –> 00:09:37,670
ساختار دادههایتان را به شما میگوید و میتوانید
251
00:09:37,670 –> 00:09:39,260
تغییر شکل خود را در طرحواره انجام چاپ اعمال کنید و
252
00:09:39,260 –> 00:09:41,240
من دقیقاً مثل
253
00:09:41,240 –> 00:09:42,680
آن بدون نیاز به ارزیابی میکنم. هر گونه
254
00:09:42,680 –> 00:09:45,529
محاسباتی را انجام دهید و بنابراین در اینجا می توانید
255
00:09:45,529 –> 00:09:47,209
از مجموعه داده های بررسی محصولات آمازون مشاهده کنید.
256
00:09:47,209 –> 00:09:48,170
257
00:09:48,170 –> 00:09:51,560
258
00:09:51,560 –> 00:09:53,089
این
259
00:09:53,089 –> 00:09:54,980
است رتبه بندی ستاره تعداد ستاره هایی است که
260
00:09:54,980 –> 00:09:56,810
شخصی هر زمان که
261
00:09:56,810 –> 00:09:58,579
محصول خود را بررسی می کند و همچنین بدنه
262
00:09:58,579 –> 00:10:00,890
و عنوان و غیره از
263
00:10:00,890 –> 00:10:02,660
خود بررسی را می پسندد و بنابراین شما می توانید تصور کنید که ممکن است
264
00:10:02,660 –> 00:10:04,100
نوعی
265
00:10:04,100 –> 00:10:07,190
تجزیه و تحلیل احساسات مشابه در این مورد انجام دهید. از تابلوی
266
00:10:07,190 –> 00:10:09,709
متن و همچنین رتبه بندی ستاره ها برای
267
00:10:09,709 –> 00:10:11,390
علاقه مندی به آموزش نوعی
268
00:10:11,390 –> 00:10:13,370
مشکل تحت نظارت سرپرست استفاده کنید که در آن سعی می کنید و
269
00:10:13,370 –> 00:10:15,709
پیش بینی می کنید که احساس خوبی در مورد
270
00:10:15,709 –> 00:10:20,899
محصول فقط بر اساس آزمایش داشته باشد بله، بنابراین
271
00:10:20,899 –> 00:10:23,540
من مانند یک ویژگی مفید دیگر
272
00:10:23,540 –> 00:10:24,620
هر زمان که بخواهید ادامه می دهم. انجام این
273
00:10:24,620 –> 00:10:26,329
تجزیه و تحلیل تعاملی برای استفاده از
274
00:10:26,329 –> 00:10:28,820
قابلیت ذخیره فریم های داده است به طوری که همانطور که
275
00:10:28,820 –> 00:10:30,170
اشاره کردم جرقه به فریم ها
276
00:10:30,170 –> 00:10:32,180
به معنای واقعی کلمه ارزیابی می شوند و در ملاقات
277
00:10:32,180 –> 00:10:35,089
به این معنی است که اغلب اگر ذخیره
278
00:10:35,089 –> 00:10:37,490
را انجام دهید یک خط لوله پردازش طولانی دارد که
279
00:10:37,490 –> 00:10:39,860
بیشتر مراحل در آن انجام می شود. همان طور که شما
280
00:10:39,860 –> 00:10:41,149
آن را دو بار با یک تغییر اندکی متفاوت
281
00:10:41,149 –> 00:10:43,190
در انتهای آن اجرا می کنید، در بسیاری از
282
00:10:43,190 –> 00:10:44,720
موقعیت ها جرقه به عقب برمی گردد و
283
00:10:44,720 –> 00:10:46,880
کل خط لوله را دوباره ارزیابی می کند، در حالی که
284
00:10:46,880 –> 00:10:49,010
شما به عنوان برنامه نویس می دانید که ac در واقع
285
00:10:49,010 –> 00:10:50,420
من فقط می خواهم در مورد آن کمی آخر بازی
286
00:10:50,420 –> 00:10:52,310
کنم و بنابراین می خواهم به Spark بگویم
287
00:10:52,310 –> 00:10:55,010
لطفاً اگر می توانید مرحله قبلی را در حافظه نگه
288
00:10:55,010 –> 00:10:57,709
دارید و می توانید با استفاده از
289
00:10:57,709 –> 00:10:59,449
این ویژگی Clash این کار را انجام دهید و بنابراین در اینجا من یک
290
00:10:59,449 –> 00:11:00,360
داده جدید
291
00:11:00,360 –> 00:11:02,730
d/f را نقد می کنم. که
292
00:11:02,730 –> 00:11:05,850
همان محتوای قاب داده اصلی من DF را ندارد، اما
293
00:11:05,850 –> 00:11:07,470
با این تفاوت که
294
00:11:07,470 –> 00:11:09,300
هر بار که پردازشی با DF در
295
00:11:09,300 –> 00:11:11,430
حافظه پنهان انجام میدهم، سعی میکند آن را در حافظه نگه دارد که در
296
00:11:11,430 –> 00:11:13,529
297
00:11:13,529 –> 00:11:20,490
حالت اصلی این کار را نمیکرد. بنابراین در این مرحله
298
00:11:20,490 –> 00:11:23,670
من قصد داشتم به
299
00:11:23,670 –> 00:11:25,470
نوت بوک دیگری تغییر دهم که قبلاً این کار را کرده بودم، بنابراین
300
00:11:25,470 –> 00:11:27,209
اینجا کاری انجام دادم که جرقه را مجبور
301
00:11:27,209 –> 00:11:28,860
کنم آن را در حافظه بارگذاری کند
302
00:11:28,860 –> 00:11:30,209
که چند دقیقه طول می کشد زیرا
303
00:11:30,209 –> 00:11:32,040
مجموعه داده بسیار بزرگی است بنابراین من من فقط
304
00:11:32,040 –> 00:11:33,360
به این نوت بوک از پیش آماده شده سوئیچ می
305
00:11:33,360 –> 00:11:35,279
کنم که قبلاً همه سلول ها را اجرا کرده ام،
306
00:11:35,279 –> 00:11:40,350
بنابراین اکنون که
307
00:11:40,350 –> 00:11:42,360
آن فریم را در حافظه دارم، می توانم
308
00:11:42,360 –> 00:11:44,940
آنالیز اولیه روی آن انجام دهم و بنابراین اینجا فقط برای انجام
309
00:11:44,940 –> 00:11:47,100
کاری بسیار سریع میخواهم فرض
310
00:11:47,100 –> 00:11:48,750
کنیم میخواهیم در wh مشتری داشته باشی