ระบบนิเวศการวิเคราะห์ข้อมูล

0

เซนส์ด้านเทคนิคเกิดจากเข้าใจระบบนิเวศของการวิเคราะห์ข้อมูล และความรู้พื้นฐานด้านสถิติ

จากบทความสูตรลับการวิเคราะห์ข้อมูล ผมได้นำเสนอแนวคิดให้นักวิเคราะห์พัฒนาเซนส์ด้านเทคนิค เพื่อให้เลือกใช้เครื่องมือและซอฟท์แวร์ได้อย่างเหมาะสมกับข้อมูล ที่เปรียบได้กับเชฟที่มีเซนส์เข้าใจเครื่องครัวและสามารถเลือกใช้เครื่องครัวในการปรุงอาหารให้เหมาะกับวัตถุดิบ

Data Analytics Landscape, Analytics Ecosystem, Machine Learning ML for Analytics, Artificial Intelligence for Analytics,สูตรลับการวิเคราะห์ข้อมูล, แนวทางการวิเคราะห์ข้อมูล, นักวิเคราะห์ที่ประสบความสำเร็จ

บทความนี้ผมขอนำเสนอแนวทางในการพัฒนาเซนส์ด้านเทคนิคในการวิเคราะห์ข้อมูลจากประสบการณ์ที่เคยใช้เซนส์นี้ปรับตัวเมื่อองค์กรเปลี่ยนเครื่องมือในการวิเคราะห์ข้อมูล เพื่อเป็นแนวทางกับทุกท่านนำไปประยุกต์ใช้

ในคอร์สสอนด้านการวิเคราะห์ข้อมูลส่วนใหญ่ เน้นไปที่การให้ความรู้และเพิ่มทักษะการใช้เครื่องมือและซอฟท์แวร์ใน 2 แนวทางหลัก คือ

แนวทางที่ 1 เครื่องมือและซอฟท์แวร์ด้าน Business Intelligence / Data Visualization อาทิ Microsoft Power BI Google Data Studio และ tableau

แนวทางที่ 2 เครื่องมือและซอฟท์แวร์ด้าน Programming Languages อาทิ Python และ R

ซึ่งทั้งสองแนวทางเป็นเครื่องมือและซอฟท์แวร์ที่นิยมใช้อย่างแพร่หลาย ที่นักวิเคราะห์ต้องเรียนรู้ ฝึกฝนให้เกิดความชำนาญ ใช้ร่วมกับเซนส์ด้านข้อมูล ในการสร้างสรรค์ผลงานวิเคราะห์ที่เฉียบคม

ในโลกยุคข้อมูลข่าวสารนี้มีเครื่องมือและซอฟท์แวร์ใหม่ๆ พัฒนาขึ้นตลอดเวลา นักวิเคราะห์ก็ต้องปรับตัวและเรียนรู้เครื่องมือใหม่ๆ ให้ทันต่อสถานการณ์ที่ข้อมูลที่มีปริมาณมากและหลากหลายขึ้น อาทิ AutoML (Automate Machine Learning) ที่นำ AI มาช่วยให้การวิเคราะห์ข้อมูลให้รวดเร็วแบบอัตโนมัติที่ผมเคยกล่าวถึงในบทความสูตรลับการวิเคราะห์ข้อมูลมาแล้ว

ผมเชื่อว่าในอนาคตจะมีการพัฒนาเครื่องมือและซอฟท์แวร์ใหม่ๆ ขึ้นอีกมากมาย นักวิเคราะห์ต้องเตรียมพร้อมปรับตัวด้วยการพัฒนาเซนส์ด้านเทคนิค เนื่องจากเซนส์ด้านเทคนิคจะช่วยเป็นพื้นฐานในการทำความเข้าใจการใช้เครื่องมือและซอฟท์แวร์ใหม่ๆ นั้นได้ เพื่อการปรับตัวเรียนรู้และฝึกฝนการใช้งานอย่างเป็นระบบ เหมือนเชฟที่สามารถเรียนรู้การใช้เครื่องครัวใหม่ๆด้วยเซนส์ของการใช้เครื่องครัวในการรังสรรค์อาหารนั่นเอง

ดังนั้นการพัฒนาเซนส์ด้านเทคนิคจึงไม่ได้ครอบคลุมเพียงแค่การเรียนรู้และฝึกฝนในการใช้เครื่องมือและซอฟท์แวร์ในการวิเคราะห์เท่านั้น นักวิเคราะห์ที่ดีต้องศึกษาความรู้ในอีก 2 แขนงเพิ่มเติม เพื่อเพิ่มเซนส์ด้านเทคนิคอย่างต่อเนื่อง ได้แก่ ความรู้เกี่ยวกับระบบนิเวศของการวิเคราะห์ข้อมูล และ ความรู้พื้นฐานด้านสถิติ

ความรู้เกี่ยวกับระบบนิเวศของการวิเคราะห์ข้อมูล

Matt Turck  ได้รวบรวมภูมิทัศน์ (Landscape) บริษัทที่อยู่ในระบบนิเวศของวิเคราะห์ข้อมูลตั้งแต่ปี 2012 จากรายงานภูมิทัศน์ในแต่ละปีจะพบว่าในตลอดเกือบสิบปีที่ผ่านมามีบริษัทใหม่ๆเกิดขึ้น และมีการควบรวมกิจการจำนวนมาก ตัวเลขที่รายงานในปี 2021 มีบริษัทในระบบนิเวศของการวิเคราะห์ข้อมูลทั้งสิ้น 2,025 บริษัท

ท่านที่ต้องการเพิ่มเซนส์ด้านเทคนิค และ ศึกษาความรู้ในระบบนิเวศของการวิเคราะห์ข้อมูล ผมแนะนำให้เริ่มต้นจากทำความเข้าใจแผนภาพภูมิทัศน์ของ Matt Turck ที่ช่วยสรุปการพัฒนาเทคโนโลยีที่สนับสนุนการวิเคราะห์ข้อมูลในแต่ละปี และเป็นแนวทางในการพัฒนาทักษะด้านการใช้เครื่องมือและซอฟท์แวร์ใหม่ๆให้เท่าทันกับเทคโนโลยีอยู่เสมอ

หากท่านไม่มีความรู้ที่เกี่ยวข้องกับระบบนิเวศการวิเคราะห์ข้อมูลมาก่อน ท่านอาจจะรู้สึกว่ามีคำศัพท์เทคนิคเยอะมาก ผมแนะนำให้อดทนที่จะอ่านในคำศัพท์ที่ไม่คุ้นเคย และค้นคว้าเพิ่มเติมต่อยอดจากบทความนี้ เปรียบเช่นท่านอยากดื่มด่ำในรสชาติของไวน์อย่างมีความสุข ท่านไม่จำเป็นต้องเป็นซอมเมอลิเยร์ (ผู้เชี่ยวชาญด้านไวน์) แต่ท่านควรศึกษาคำศัพท์เฉพาะที่เกี่ยวกับไวน์ ใช้พูดคุยขอคำแนะนำจากซอมเมอลิเยร์เพื่อเลือกไวน์ที่เหมาะสมกับท่านได้

ภูมิทัศน์ระบบนิเวศของการวิเคราะห์ข้อมูลออกเป็น 7 ส่วนได้แก่

Data Analytics Landscape, Analytics Ecosystem, Machine Learning ML for Analytics, Artificial Intelligence for Analytics,สูตรลับการวิเคราะห์ข้อมูล, แนวทางการวิเคราะห์ข้อมูล, นักวิเคราะห์ที่ประสบความสำเร็จ

ส่วนที่ 1 โครงสร้างพื้นฐานทางข้อมูล (Infrastructure)

ภูมิทัศน์ในส่วนของเทคโนโลยีการจัดเก็บข้อมูล (Storage) กระบวนการ ETL (Extract-Transform-Load) เพื่อให้ข้อมูลพร้อมใช้ ความปลอดภัยในการจัดเก็บข้อมูล (Data Security) การธรรมาภิบาลข้อมูล (Data Governance) รวมถึงแนวโน้มการเพิ่มขึ้นของกลุ่มโครงสร้างพื้นฐานทางข้อมูลใหม่ๆ อาทิ กระบวนการ ETL ย้อนกลับ (Reverse ETL) ที่เพิ่มประสิทธิภาพในการส่งข้อมูลไปยังซอฟท์แวร์ SaaS applications ผ่านระบบ cloud (เช่น Salesforce.com) เพื่อให้ผู้ใช้งานได้รับประสบการณ์ที่ดีขึ้น เป็นต้น

Data Analytics Landscape, Analytics Ecosystem, Machine Learning ML for Analytics, Artificial Intelligence for Analytics,สูตรลับการวิเคราะห์ข้อมูล, แนวทางการวิเคราะห์ข้อมูล, นักวิเคราะห์ที่ประสบความสำเร็จ

ส่วนที่ 2 การวิเคราะห์ข้อมูล (Analytics)

ภูมิทัศน์ในส่วนโปรแกรมและแพลตฟอร์มที่ใช้ในการวิเคราะห์ข้อมูล (Business Intelligence Platform) การแปลงข้อมูลเป็นภาพ (Visualization) ตลอดจนเทคโนโลยีที่สนับสนุนการวิเคราะห์ข้อมูล รวมถึงแนวโน้มการเพิ่มขึ้นของเทคโนโลยีการวิเคราะห์ข้อมูลกลุ่มใหม่ๆ อาทิ การวิเคราะห์ข้อมูลโดยอัตโนมัติ (Augmented Analytics) ด้วยการใช้เทคโนโลยีทางด้าน AI, Machine Learning และ NLP การจัดเก็บตัวชี้วัด (Metrics Stores) ด้วยการใช้เทคโนโลยีในการเก็บข้อมูลตัวชี้วัดของธุรกิจแบบรวมศูนย์เพื่อสนับสนุนการตัดสินใจของผู้บริหาร เป็นต้น

Data Analytics Landscape, Analytics Ecosystem, Machine Learning ML for Analytics, Artificial Intelligence for Analytics,สูตรลับการวิเคราะห์ข้อมูล, แนวทางการวิเคราะห์ข้อมูล, นักวิเคราะห์ที่ประสบความสำเร็จ

ส่วนที่ 3 การเรียนรู้ของเครื่องและปัญญาประดิษฐ์ (Machine Learning and AI)

ภูมิทัศน์ในส่วนของเทคโนโลยีที่สนับสนุนการทำงานของนักวิทยาศาสตร์ข้อมูล ทั้งในส่วนของแพลตฟอร์มการวิเคราะห์ข้อมูล (Data Science Platforms) และ แพลตฟอร์ม Machine Learning (ML Platforms) รวมถึงแนวโน้มที่เพิ่มขึ้นของกลุ่มเทคโนโลยีใหม่ๆ อาทิ การสร้างโมเดล (Model Building) การจัดเก็บข้อมูลสำหรับ Machine Learning (Feature Stores) และ การนำ Machine Learning ไปใช้งาน (Deployment & Production)

Data Analytics Landscape, Analytics Ecosystem, Machine Learning ML for Analytics, Artificial Intelligence for Analytics,สูตรลับการวิเคราะห์ข้อมูล, แนวทางการวิเคราะห์ข้อมูล, นักวิเคราะห์ที่ประสบความสำเร็จ

ส่วนที่ 4 แอปพลิเคชัน (Applications)

ภูมิทัศน์ในส่วนของเทคโนโลยีแอปพลิเคชัน แบ่งออกเป็น 2 ส่วนหลักได้แก่

แอปพลิเคชันสำหรับองค์กร (Enterprise) ซึ่งแบ่งตามฟังก์ชันการทำงานภายในองค์กร อาทิ งานขาย (Sales) การตลาดผู้บริโภค (Marketing B2C) การตลาดองค์กร (Marketing B2B) การบริการลูกค้า (Customer Service / Experience) บริหารทรัพยากรมนุษย์ (Human Capital) และ บริหารการเงิน (Finance) เป็นต้น

แอปพลิเคชันสำหรับอุตสาหกรรม (Industry) ซึ่งแบ่งตามประเภทอุตสาหกรรม อาทิ การดูแลสุขภาพ (Healthcare) การขนส่ง (Transportation) การเกษตร (Agriculture) โรงงานอุตสาหกรรม (Industrial) การศึกษา (Education) อสังหาริมทรัพย์ (Real Estate) และ การบริหารหน่วยงานราชการ (Government & Intelligence) เป็นต้น

Data Analytics Landscape, Analytics Ecosystem, Machine Learning ML for Analytics, Artificial Intelligence for Analytics,สูตรลับการวิเคราะห์ข้อมูล, แนวทางการวิเคราะห์ข้อมูล, นักวิเคราะห์ที่ประสบความสำเร็จ

ส่วนที่ 5 แหล่งข้อมูลและการเชื่อมต่อ (Data Sources & API)

ภูมิทัศน์ในส่วนของแหล่งข้อมูลเพื่อใช้ในการวิเคราะห์ อาทิ ตลาดข้อมูล (Data Marketplaces & Discovery) ข้อมูลด้านการเงินและเศรษฐกิจ (Financial & Economic Data) ข้อมูลด้านอากาศ อวกาศ ทะเล (Air/Space/Sea) ข้อมูลด้านบุคคลและนิติบุคคล (People/Entities) และข้อมูลที่ตั้ง (Location Intelligence)

ส่วนที่ 6 ทรัพยากรด้านข้อมูล (Data Resources)

ภูมิทัศน์ในส่วนการสนับสนุนการวิเคราะห์ข้อมูล อาทิ การบริการข้อมูล (Data Service) สถาบันบ่มเพาะนักวิเคราะห์และโรงเรียน (Incubators & Schools) และ หน่วยงานวิจัย (Research)

ส่วนที่ 7 โอเพนซอร์ซ (Open Source)

ภูมิทัศน์ที่เกิดขึ้นจากการอาศัยความร่วมมือของนักพัฒนาเทคโนโลยีด้านการวิเคราะห์ข้อมูลทั่วโลก เพื่อพัฒนาเทคโนโลยีที่ดีกว่า โดยขอบเขตของภูมิทัศน์นี้ครอบคลุมการพัฒนาเทคโนโลยีใกล้เคียงกับ 6 ภูมิทัศน์แรก ต่างกันที่เป็นการร่วมพัฒนากันในสังคมนักพัฒนาเทคโนโลยีเพื่อแบ่งปันความรู้ในการพัฒนาให้ต่อยอดความรู้นั้นร่วมกัน

ลิงก์ต้นทางที่มีไฟล์ภาพที่คมชัด (click) และข้อมูลแบบสเปรดชีต (click) เพื่อให้ท่านศึกษาเพิ่มเติม

ความรู้พื้นฐานเกี่ยวกับสถิติ

สถิติเป็นแขนงของวิชาคณิตศาสตร์ที่เกี่ยวเนื่องกับกระบวนการจัดเก็บข้อมูล ประมวลผลข้อมูลด้วยคณิตศาสตร์ เพื่อใช้บรรยายเหตุการณ์หรือข้อเท็จจริงที่เกิดขึ้น ตลอดจนการพยากรณ์ความน่าจะเป็นของเหตุการณ์จากข้อมูลที่มีอยู่

ในบริบทของเซนส์ด้านเทคนิค ท่านไม่จำเป็นต้องคำนวณสูตรที่ซับซ้อนทางด้านสถิติ หากแต่ท่านต้องเข้าใจว่าค่าทางสถิติที่ได้จากการคำนวณนั้นสามารถนำไปช่วยในการตัดสินใจของท่านได้อย่างไร

ตัวอย่างการใช้สถิติเพื่อช่วยในการตัดสินใจ อาทิ ระบบการแนะนำเนื้อหาที่ลูกค้าอาจสนใจของ Netflix ที่ใช้กระบวนการทางสถิติจากข้อมูลการเข้าชมของลูกค้ามาพยากรณ์เพื่อใช้แนะนำเนื้อหาถัดไปให้กับลูกค้า โดยมีวัตถุประสงค์คือต้องการให้ลูกค้าค้นพบเนื้อหาที่ถูกใจในเวลาอันสั้นจากเนื้อหาที่หลากหลายของ Netflix ซึ่งจะช่วยให้ลูกค้าเพลิดเพลินกับการรับชมเนื้อหาโดยไม่เสียเวลาในการค้นหามากเกินไป ซึ่งหากไม่มีการแนะนำเนื้อหานี้ลูกค้าอาจรู้สึกว่า Netflix ไม่มีเนื้อหาที่ลูกค้าสนใจและยกเลิกการเป็นสมาชิกในที่สุด หากเป็นลูกค้าใหม่ที่ยังมีข้อมูลเข้าชมไม่มาก Netflix ก็ใช้กระบวนการทางสถิติอ้างอิงคำแนะนำจากลูกค้าที่มีลักษณะใกล้เคียงกัน

แม้ว่าการคำนวณตัวเลขทางสถิติอาจยุ่งยากและซับซ้อน แต่การพัฒนาทางด้านเทคโนโลยีในปัจจุบันการคำนวณแทบทั้งหมดใช้คอมพิวเตอร์หรือปัญญาประดิษฐ์ในการคำนวณ ดังนั้นความเข้าใจในหลักการทางสถิติจึงเป็นสิ่งสำคัญเพื่อให้นักวิเคราะห์เข้าใจผลการคำนวณตัวเลขทางสถิตินั้นและนำไปประกอบการตัดสินใจได้อย่างเฉียบคม

ทั้งเนื้อหาเกี่ยวกับพื้นฐานทางสถิติมีหลากหลาย มีทั้งสถิติแบบเข้าใจง่ายและซับซ้อน ผมจะนำเสนอเนื้อหาความรู้พื้นฐานเกี่ยวกับสถิติในแง่มุมของผู้ใช้งานสถิติในการตัดสินใจ ในโอกาสต่อๆไป

อย่างไรก็ดี ท่านสามารถเริ่มต้นเพิ่มเซนส์ด้านเทคนิคได้ทันที ด้วยการศึกษาความรู้เกี่ยวกับระบบนิเวศการวิเคราะห์ข้อมูล และความรู้พื้นฐานทางสถิติ เพราะการพัฒนาเซนส์ด้านเทคนิคต้องใช้ความพยายามในการเรียนรู้คำศัพท์ใหม่ๆค่อนข้างมาก

ผมขอทิ้งท้ายบทความนี้ด้วยข้อความของท่านขงจื้อที่ว่า “ผู้ที่สามารถย้ายภูเขาได้ เริ่มต้นด้วยการแบกหินก้อนเล็กออกไป (The man who moves mountains begins by carrying away small stones – Confucius)

แสดงความคิดเห็น

0 ความคิดเห็น
* Please Don't Spam Here. All the Comments are Reviewed by Admin.
แสดงความคิดเห็น (0)
To Top