ปัญญาประดิษฐ์ของ GOOGLE 'ALPHA GO ZERO' เพิ่งกดรีเซ็ตเกี่ยวกับวิธีการเรียนรู้

จำ (ไม่ชัดเจน) ว่าคุณเรียนรู้ที่จะเดิน พูด ขี่จักรยาน หรือขับรถได้อย่างไร? มันยุ่งเหยิงและเต็มไปด้วยข้อผิดพลาด แต่ทักษะที่คุณเรียนรู้จากวิธีนั้นยังคงอยู่ นอกเหนือจากระบบสิ่งมีชีวิต การจัดโครงสร้างอัลกอริทึมที่แข็งแกร่งพอที่จะรับ 'ประสบการณ์ชีวิตจริง' และพัฒนาพฤติกรรมที่เหนียวแน่นและปรับเปลี่ยนได้สำหรับปัญญาประดิษฐ์นั้นเป็นเรื่องยาก

อัลฟ่าโกซีโร่เพิ่งทำ

'มันเริ่มต้นจากกระดานชนวนที่ว่างเปล่าและคิดออกสำหรับตัวมันเองเท่านั้น จากการเล่นกับตัวเองเท่านั้น และปราศจากความรู้ของมนุษย์ หรือข้อมูลหรือคุณลักษณะใดๆ ของมนุษย์ หรือตัวอย่าง หรือการแทรกแซงจากมนุษย์ มันค้นพบวิธีการเล่นเกม Go จากหลักการแรก' ศาสตราจารย์ David Silver จาก DeepMind กล่าว

AI มีการทำซ้ำหลายครั้ง โดยแต่ละครั้งฉลาดกว่าและมีความสามารถมากกว่าที่เคยเป็นมา เวอร์ชันก่อนหน้าใช้ฐานข้อมูลขนาดใหญ่ของเกมก่อนหน้านี้ควบคู่ไปกับอัลกอริธึมที่ชี้ไปสู่ชัยชนะ วิธีการนั้นนำไปสู่การพ่ายแพ้ของผู้เล่นโกมืออาชีพที่ครองแชมป์โลก ในโป๊กเกอร์ AI Libratus เพิ่งถลกหนังผู้เล่นโป๊กเกอร์ชั้นนำของโลกเกือบ 2 ล้านเหรียญ โดยเรียนรู้ผ่านการเล่นด้วยตนเองแทนข้อมูลเกมของมนุษย์

นิค พีเน่ อายุเท่าไหร่

ตอนนี้ในเวอร์ชันล่าสุดของ Alpha Go โปรแกรมปัญญาประดิษฐ์สอน ตัวเอง วิธีการเล่น Go โดยไม่มีพื้นฐานของมนุษย์

การจำลองเกมเป็นล้านๆ จำลองด้วยตัวเอง ใช้เวลา 40 วันในการเรียนรู้วิธีเอาชนะเวอร์ชันแชมป์โลกของตัวเองตั้งแต่ต้นจนจบ นั่นเป็นสิ่งที่เปลี่ยนเกมอย่างแท้จริง ไม่เพียงแต่สำหรับ Go แต่ยังรวมถึงการค้นพบความรู้ใหม่ด้วย ความเชี่ยวชาญด้านโดเมนของคุณแม่นยำหรือครบถ้วนเพียงใด? มี มาก มีอะไรให้ค้นพบอีกมากมาย คือสิ่งที่การทดลองที่น่าสนใจในการเรียนรู้กับ Alpha Go Zero กำลังบอกเรา

'แนวคิดของ Alpha Go ไม่ใช่การออกไปและเอาชนะมนุษย์ แต่จริงๆ แล้วเพื่อค้นหาว่าการทำวิทยาศาสตร์หมายถึงอะไร เพื่อให้โปรแกรมสามารถเรียนรู้ด้วยตัวเองว่าความรู้คืออะไร' ตาม Silver ในโพสต์ YouTube เกี่ยวกับ ความสำเร็จ

ทีมงาน Alpha Go Zero Deep Mind เรียกสิ่งนี้ว่าหลักการเรียนรู้ 'tabula rasa' (กระดานชนวนเปล่า)

'ถ้าคุณสามารถบรรลุได้ ตาราง รสา การเรียนรู้ คุณมีเอเจนต์ที่สามารถย้ายจากเกม Go ไปยังโดเมนอื่น ๆ ได้ และรายละเอียดเฉพาะของเกมที่คุณอยู่ คุณจะพบกับอัลกอริธึมที่ธรรมดามากจนสามารถนำไปใช้ได้ทุกที่' . นั่นเป็นความคิดที่ยั่วยุเมื่อคุณขยายแนวคิด ลองคิดดูว่าเราสามารถทำอะไรได้บ้างกับชุดอัลกอริทึมการเรียนรู้ที่แข็งแกร่งซึ่งสามารถจัดการกับปัญหายากๆ อย่างเป็นระบบ และเรียนรู้ได้เร็วกว่าความรู้รวมของอารยธรรมของเรา . . ในไม่กี่วันไม่ใช่ทศวรรษ

ศรัทธา ฮิลล์ มูลค่าสุทธิ 2016

สำหรับตอนนี้ สิ่งสำคัญที่สุดคือ 'อัลกอริทึมมีความสำคัญมากกว่าการประมวลผลหรือข้อมูลที่มีอยู่' ซิลเวอร์กล่าว เพียงอย่างเดียวเท่านั้นที่เป็นตัวเปลี่ยนเกมในการขยายโลกที่รู้จัก แม้ว่า Alpha Go จะใช้ฮาร์ดแวร์ประมาณ 25 ล้านดอลลาร์ แต่ก็ไม่ใช่ระบบที่มีน้ำหนักเบาอย่างแน่นอน คุณทราบดีว่าปรมาจารย์ด้าน AI ได้ทำงานอย่างหนักเพื่อสร้างชุดข้อมูลที่สะอาดขึ้นและดีขึ้น ทุกวันนี้ ชุดข้อมูลขนาดใหญ่จำนวนมากถือว่าส่งเสียงดังเกินไป ซึ่งเต็มไปด้วยข้อมูลที่ไม่ดี ในการฝึกปัญญาประดิษฐ์อย่างแม่นยำ ถ้า AI กำลังเรียนรู้จากข้อมูล และข้อมูลไม่ดี มันก็จะไม่เรียนรู้ ปัญหาใหญ่.

จะเป็นอย่างไรถ้าคุณไม่ต้องการข้อมูลที่สะอาด แต่เพียงแค่ประสบการณ์ แล้วปัญญาประดิษฐ์ก็สามารถฝึกฝนตัวเองได้ล่ะ

นั่นคือความสำเร็จที่น่าตื่นเต้นใน Alpha Go Zero แม้ว่าจะอยู่ในเฉพาะกลุ่มเกมที่มีกฎเกณฑ์ แต่ก็มีนัยสำคัญในทุกอุตสาหกรรมที่ทำงานจากกฎทางกายภาพ เช่น เคมี การจราจร ชีววิทยา เภสัชวิทยา การเดินทาง การขนส่ง และการผลิต หากเราสามารถออกแบบกฎเกณฑ์ที่ยืดหยุ่นได้ พวกเขาสามารถทำงานจากประสบการณ์ที่กว้างขึ้น และทิศทางที่พวกเขาสร้างทักษะที่แข็งแกร่งขึ้นเสมอ เช่น Alpha Go Zero ก็เป็นไปได้ที่จะบรรลุปัญญาประดิษฐ์ที่บงการระบบ ระบบเหล่านี้จะไม่ต้องการข้อมูลภายนอก ไม่มีปัญหาการล้างข้อมูล และไม่ต้องการการชะลอตัวของมนุษย์ในวง นั่นเป็นส่วนหนึ่งที่ทำให้บริษัทแม่ของ Google ที่ชื่ออัลฟาเบท เดิมพันบริษัทด้วยปัญญาประดิษฐ์ และลงทุนในปัญญาประดิษฐ์ในอัตราที่รวดเร็ว (Amazon ยังลงทุนในปัญญาประดิษฐ์ เช่น การเข้าซื้อกิจการ AI ล่าสุด BodyLabs)

ทรีบรู๊คส์และพี่น้องของเขา

เดวิด ซิลเวอร์ ศาสตราจารย์จาก Deep Mind กล่าวว่า 'การที่เราได้เห็นโปรแกรมบรรลุผลการปฏิบัติงานในระดับสูง...น่าจะหมายความว่าตอนนี้ เราสามารถเริ่มจัดการกับปัญหาที่ท้าทายและมีผลกระทบมากที่สุดสำหรับมนุษยชาติ'

โพสต์นี้ได้รับการอัปเดตเพื่อชี้แจงว่า AI Libratus เพิ่งเอาชนะผู้เล่นโป๊กเกอร์ชั้นนำโดยใช้กลยุทธ์ที่เกี่ยวข้องกับการเล่นด้วยตนเองมากกว่าข้อมูลที่มนุษย์ป้อน