ในยุคของการแข่งขันธุรกิจยุคดิจิทัลเป็นเรื่องที่ท้าทายและล้วนต้องมีการปรับเปลี่ยนรูปแบบการดำเนินธุรกิจเสมอ ทั้งเทรนด์ของผู้บริโภคที่เปลี่ยนแปลงไวกว่าในอดีตที่ผ่านมา ตัวเลือกและช่องทางในการเข้าถึงสินค้าหรือผลิตภัณฑ์ที่ง่ายขึ้น ทำให้ต้องจับทางให้ถูกต้องเพื่อช่วงชิงการเติบโตทางธุรกิจอย่างรวดเร็ว ซึ่งก่อนหน้านี้ผมได้เคยพูดถึงความสำคัญของภาคธุรกิจดิจิทัลเกี่ยวกับ Data Science ในบทความ Data Science คืออะไร ทำไมจึงสำคัญกับภาคธุรกิจในยุคดิจิทัล? จากการมาเป็นส่วนหนึ่งในชีวิตประจำวันมนุษย์ของ Big Data นอกจากการกุมข้อมูลของลูกค้าไว้ในการวิเคราะห์การตลาดแล้ว อีกสิ่งหนึ่งที่จำเป็นต้องรู้มาก ๆ นั่นก็คือวิธีการเก็บข้อมูลนั่นเอง
ก่อนอื่นเรามาทำความรู้จัก Big Data ที่เราได้เกริ่นถึงไปก่อนหน้านี้กันว่ามันคืออะไรในสาขาเทคโนโลยีสารสนเทศ Big Data ในภาษาไทยคือข้อมูลมหัต หรือ ข้อมูลขนาดใหญ่ซึ่งเป็นชุดข้อมูลที่มีขนาดและความซับซ้อนเป็นอย่างมาก ซึ่งซับซ้อนมากพอที่จะเป็นเรื่องยากในการประมวลผล ส่งผลให้ความความท้าทายในเรื่องของการประมวลผลหลายบริษัทต่างก็หาวิธีการที่จำทำให้ Big Data นี้เป็นข้อมูลที่จับต้องได้และนำมันมาหาแนวโน้มทางธุรกิจ ตัดสินคุณภาพของงานวิจัย รวมถึงในด้านอื่น ๆ อีกมากมาย
ซึ่งการใช้ Big Data นี้แม้จะมีข้อดีในแง่ของการทำธุรกิจแต่ก็มีหลายต่อหลายเสียงวิพากษ์วิจารณ์การทำงานของ Big Data ในปัจจุบันว่ามันเป็นภัยต่อสังคม เป็นภัยต่อมนุษยชาติบนโลกใบนี้ เพราะ Big Data จะไม่ใช่แค่การเป็นส่วนหนึ่งในชีวิตประจำวัน แต่ในอนาคต Big Data จะก้าวเข้ามามีบทบาทในการกำหนดแนวทางการใช้ชีวิตมนุษย์อย่างเลี่ยงไม่ได้
โดยมีข้อมูลจากหนังสือเล่มหนึ่งที่ถูกพูดถึงเป็นอย่างมากในช่วงสองสามปีที่ผ่านมานั่นก็คือหนังสือที่มีชื่อว่า “Weapons of Math Destruction” หรือชื่อภาษาไทยคือ “บิ๊กดาต้า มหาประลัย” หนังสือเล่มนี้เผยด้านมืดที่น่าจับตามองของ Big Data และ Algorithm ที่เริ่มเข้ามามีอิทธิพลต่อชีวิตมนุษย์ในด้านต่าง ๆ มากขึ้นเรื่อย ๆ ตั้งแต่การคัดเลือกเข้าโรงเรียนไปถึงการคำนวณอัตราการจ่ายประกัน ซึ่งล้วนถูกตัดสินใจด้วยโมเดลทางคณิตศาสตร์ทั้งสิ้น ซึ่งดูเผิน ๆ อัลกอริทึมหรือคณิตศาสตร์มีความเป็นกลางไร้อคติ แต่อันที่จริงแล้วเรื่องนี้กลับแฝงไว้ด้วยอคติหลากหลายด้านที่ฝังตัวอยู่ในโมเดล จนหลายครั้งก็ทำให้สังคมมองไม่เห็นว่า Big Data และโมเดลคณิตศาสตร์บางอย่าง แทนที่จะสร้างสังคมที่ดีขึ้นให้กับมนุษยชาติ แต่กลับยิ่งตอกย้ำความเหลื่อมล้ำแบบเดิม ๆ อย่างแนบเนียนมากขึ้นด้วยซ้ำ
หลังจากรู้ว่า Big Data คืออะไรกันแล้ว เรามาทำความรู้จักกับที่เก็บข้อมูลทั้งหลายต่อก่อนเลย ซึ่งในบทความนี้จะประกอบไปด้วย Database, Data Warehouse และ Data Lake นั่นเองครับ
- Database
Database คือที่สำหรับเก็บข้อมูลที่มีโครงสร้างชัดเจน (Structured Data) จากแหล่งข้อมูลหนึ่งไว้ในที่เดียวกัน ที่ประกอบไปด้วยกลุ่มการจัดการข้อมูลสำหรับผู้ใช้หนึ่งคนหรือหลาย ๆ คน โดยทั่วไปมักอยู่ในรูปแบบดิจิทัล สามารถเก็บ ค้นหา และบอกเราได้ว่าอะไรอยู่ที่ไหนบ้าง โดยเราอาจจะสามารถมองว่าคอมพิวเตอร์ที่เก็บข้อมูลของเราไว้อย่างเป็นระบบ เป็นเหมือน Database ชนิดหนึ่งของเราก็ได้
โดยวิธีการจัดแบ่งชนิดของ Database ก็สามารถแบ่งตามชนิดของเนื้อหา เช่น บรรณานุกรม, เอกสารตัวอักษร, สถิติ หรือข้อมูลธุรกรรมต่าง ๆ เป็นต้น ซึ่งนอกจากนี้ Database ยังเป็นที่เก็บข้อมูลที่สร้างได้ง่ายที่สุด โดยใช้ภาษา SQL ในการเรียกข้อมูล ซึ่งมักจะถูกใช้ในการทำรายงานทางด้านการเงินหรือวิเคราะห์ข้อมูลขนาดเล็ก พอที่จะทำให้กระบวนการทางธุรกิจกลายเป็นระบบอัตโนมัติได้มากขึ้น
- Data warehouse (DW, DWH)
Data Warehouse นับเป็นฐานข้อมูลขนาดยักษ์อีกอย่างหนึ่ง ที่รวบรวมฐานข้อมูลจากหลายแหล่งหลายช่วงเวลา ซึ่งอาจมี schema แตกต่างกัน แต่มารวมไว้ในที่เดียวกัน ข้อมูลที่มีการเก็บแบบ Data Warehouse มักจะใช้นำไปวิเคราะห์, ทำ Report หรือตอบคำถามต่าง ๆ ซึ่งบริษัทขนาดกลางไปจนถึงขนาดใหญ่มักจะมีไว้ใช้ในการแชร์ข้อมูลระหว่างทีม และ Business Analyst ก็สามารถดึง insight ออกมาทำเป็นรายงานไว้สำหรับการตัดสินใจด้านธุรกิจได้ด้วย นับว่าเป็นแกนหลักสำหรับการวิเคราะห์ข้อมูลเลยทีเดียว
อย่างที่บอกไปคือ Data Warehous คือที่เก็บขนาดใหญ่สำหรับข้อมูลที่มีโครงสร้างชัดเจนจากหลายแหล่ง ซึ่งการสร้าง Data Warehouse นั้น จำเป็นต้องมีการวางแผนอย่างรัดกุม ออกแบบการเก็บข้อมูลไว้ในรูปแบบที่ดีเพื่อให้การใช้งานในองค์กรนั้นเป็นไปอย่างราบรื่นด้วย แต่การเก็บ Data Warehouse ก็อาจจะจำเป็นที่จะต้องมี Database ด้วย เพราะถ้าไม่มี Database ก็จะเกิดปัญหาโดยอาจจะไม่สามารถวิเคราะห์ข้อมูลเชิงลึกหรือวิเคราะห์ข้อมูลที่มีเงื่อนไขซับซ้อนได้ดีเท่าที่ควร
- Data Lake
Data Lake เป็นระบบหรือที่เก็บข้อมูลในรูปแบบข้อมูลดิบ เป็นการเก็บข้อมูลทุกอย่างเข้าสู่ระบบโดยสามารถเก็บข้อมูลได้ทุกรูปแบบจากหลายแหล่งโดยที่ไม่ต้องมีการแปลงข้อมูลก่อนรวมถึงข้อมูลที่ยังไม่รู้ว่าจะใช้ทำอะไรก็สามารถเก็บไปก่อนได้เพราะอาจจะมีประโยชน์ต่อธุรกิจหรือการวิเคราะห์ข้อมูลของเราในอนาคต เมื่อข้อมูลถูกจัดและเก็บเข้าระบบแล้วก็ต้องใช้ Algorithm, AI หรือ Machine Learning เข้ามาเพื่อช่วยวิเคราะห์ข้อมูล โดยเราสามารถเปลี่ยนรูปแบบโครงสร้างของข้อมูลให้ Data Scientist หรือ Data Analyst ได้ใช้ในการสร้างโมเดลเพื่อวิเคราะห์ข้อมูลในธุรกิจของเราแบบ real time แต่อาจจะมีสิ่งที่ไม่สามารถทำได้เหมือน Data Warehouse คือการดึงข้อมูลมาใช้สร้างรายงานหรือข้อสรุปในการตัดสินใจทางธุรกิจต่าง ๆ เพราะจุดประสงค์ในการเก็บค่อนข้างแตกต่างกัน
หลังจากการทำความรู้จักเทคโนโลยีการเก็บข้อมูลข้างต้นทั้งสามแบบแล้วนั้น นับว่ามีความแตกต่างกันทั้งในแง่ของกระบวนการเก็บ จุดประสงค์ในการเก็บ และการนำข้อมูลมาใช้ประโยชน์ต่อ หลาย ๆ คนอาจจะต้องชั่งน้ำหนักดูว่าปัจจุบันบริษัทหรือธุรกิจของเราถือข้อมูลแบบไหนอยู่ในมือ และอยากเอาข้อมูลเหล่านั้นไปใช้อะไรต่อในอนาคตเพื่อให้ตอบโจทย์กับทั้งองค์กรและข้อมูลที่มี ซึ่งหากข้อมูลมีโครงสร้างที่ไม่แน่นอน อยากเอาข้อมูลไปสร้างโมเดลต่อก็อาจจะต้องเลือกใช้ Data Lake หรือถ้ามีโครงสร้างข้อมูลที่ชัดเจนอยู่แล้วและเน้นการเก็บข้อมูลธุรกรรมต่าง ๆ ก็อาจจะใช้ระบบฐานข้อมูล Database System แต่ถ้าข้อมูลมีโครสร้างที่ชัดเจนเหมือนกันแต่เน้นไปที่การวิเคราะห์ข้อมูลด้วยทางที่ตอบโจทย์ก็ควรจะเป็น Data Lake และที่สำคัญคือขึ้นอยู่กับความเข้าใจในการนำมาปรับใช้ด้วยเช่นกัน
0 Comment