ข้ามไปที่เนื้อหาหลัก

Big Data คืออะไร


Big Data คืออะไร

ถ้าถามว่า Big Data คงต้องบอกว่า คือ Data ทุกอย่างที่มีอยู่ในบริษัทของคุณ ไล่ตั้งแต่ข้อมูลบริษัท ที่ไม่ว่าจะเก็บอยู่ในรูปแบบไหน ไปจนถึง URLs ที่คุณ Bookmarks เอาไว้ นั้นก็ Big Data ถ้าจะบอกว่า Big Data is all around ก็คงไม่ผิดนัก เพราะมันไม่ได้จำแนกแจกจ่ายว่าต้องเป็นข้อมูลผ่านการวิเคราะห์มาแล้วหรือไม่ คือขอแค่เป็นข้อมูล ไม่ว่าจะอยู่ในรูปแบบไหน ประเภทอะไร ก็นับว่าเป็น Big Data ทั้งนั้น
ดังนั้นเราจึงกล่าวได้ว่า Big Data ก็คือข้อมูลทุกอย่างที่เรามีอยู่ในบริษัท ทั้งข้อมูลที่มีแหล่งที่มาจากภายในบริษัทเองและข้อมูลที่มาจากแหล่งที่มาภายนอกอย่าง Social medias ซึ่งทั้งหมดเป็นข้อมูลที่สามารถนำมาวิเคราะห์ได้หรือก็คือ ข้อมูลดิบ นั้นเอง ทั้งนี้ข้อมูลเหล่านี้สามารถนำมาวิเคราะห์ได้ด้วยวิธีการหลากหลายวิธีการ ขึ้นอยู่กับว่าคุณต้องการนำข้อมูลเหล่านั้นไปใช้งานด้านไหน ในปัจจุบันนิยมทำ Big Data Analysis เพื่อใช้ในการสำหรับการคาดการณ์เหตุการณ์ในอนาคต หรือ ก็คือเพื่อใช้ดูแนวโน้มสิ่งที่จะเกิดขึ้นนั้นเอง
ใหญ่แค่ไหนถึงเรียก Big Data
ถ้าจะพูดถึงขนาดของ Big Data ก็ต้องบอกว่า มันคือ Data ทุกอย่างรวมกัน –แต่ในแนวคิดปัจจุบันเห็นพ้องไปทางเดียวกัน Data ที่ถือเป็น Big Data จะไม่สามารถนำมาบริหารจัดการได้ด้วยโปรแกรมแบบเดิมๆที่เราคุ้นเคยกันอย่าง spreadsheets หรือ เครื่องมือทั่วๆไปที่มีอยู่ในระบบการจัดการฐานข้อมูล
โดยปกติแล้วนั้น การวิเคราะห์ Big Data มักจะมีการแยะข้อมูลออกเป็นหมวดหมู่เพื่อให้ข้อมูลที่มีความเกี่ยวข้องหรือเกี่ยวเนื่องอยู่รวมกัน ซึ่งนั้นหมายความว่าสำหรับ Big Data แล้วไม่จำเป็นจะต้องมีการสร้าง Sub-sets ย่อยๆของข้อมูลแต่อย่างใด เพราะมีเครื่องมือช่วยในเรื่องนี้อยู่แล้ว (สะดวกสบายไปอีกก)
คุณสมบัติของ Big data
ในขณะที่ Big data เองเกี่ยวข้องกับการรวบรวมข้อมูลขนาดใหญ่เข้าด้วยกัน เพื่อใช้ในการวิเคราะห์ข้อมูล จึงได้เกิด concept ของ Big data ขึ้นโดยใช้หลักการ 4 V คือ
1. Volume
จัดการเก็บรวบรวมข้อมูลจากหลากหลายที่ รวมถึง ข้อมูล transaction ของธรุกิจที่เกิดขึ้นทั้งหมด และ ข้อมูลใน social media ต่างๆ ซึ่งในอดีตเองการเก็บข้อมูลพวกนี้ย่อนมเป็นปัญหาใหญ่ แต่ด้วย techonology ปัจจุบันที่ชื่อ Hadoop ได้ลบข้อจำกัดนั้นทิ้งไป
2. Velocity
ด้วยชุดข้อมูลที่ส่งกันด้วยความเร็วสูง และด้วยข้อจำกัดด้านเวลา ที่ต้องรองรับการใช้งานของ user ที่ต้องการในลักษณะ near-real time
3. Variety
ความหลากหลายของข้อมูลหลายรูปแบบ ดังเช่น ตัวอักษร, ตัวเลข, email, video, audio, ข้อมูล ticker ของตลาดหุ้น และ ข้อมูลด้านการเงิน
4. Value
ข้อมูลที่เข้ามาต้องมีการตรวจสอบด้วยวิธีการบางอย่างเพื่อดึงเอาข้อมูลที่มีประโยชน์ เพื่อให้พื่นที่ที่ใช้เก็บข้อมูลสามารถใช้ได้อย่างคุ้มค่า เช่นการเก็บข้อมูลสถิติทั้งหมด กับการสุ่มเอาตัวอย่างข้อมูลเก็บไว้เท่านั้น


ความคิดเห็น