Google cũng đã đạt nhiều thành tựu đáng kể trong công nghệ AI. Đặc biệt gần đây Gemini AI của Google vượt mặt con người ở cấp độ chuyên gia. Hãy cùng mình tìm hiểu thêm về AI này nhé!
Google gặp sự cạnh tranh gay gắt của công nghệ AI
Google là một trong những công ty hàng đầu trong lĩnh vực trí tuệ nhân tạo (AI). Hãng đã đầu tư rất sớm và mạnh mẽ vào nghiên cứu và phát triển các hệ thống AI có khả năng đánh bại con người trong những trò chơi đòi hỏi trí tuệ như cờ vua, cờ vây, hay StarCraft II. Tuy nhiên, Google cũng gặp phải sự cạnh tranh khốc liệt từ các đối thủ khác, đặc biệt là OpenAI, một tổ chức nghiên cứu AI phi lợi nhuận, được tài trợ bởi những nhân vật nổi tiếng như Elon Musk, Peter Thiel, hay Reid Hoffman…
Để không bị bỏ lại phía sau, Google đã chính thức ra mắt Gemini, mô hình AI mới nhất, “lớn nhất và có khả năng nhất” của hãng. Gemini được xây dựng theo hướng đa phương thức, do đó nó có thể khái quát hóa và hiểu các loại thông tin khác nhau – văn bản, hình ảnh, âm thanh, video và mã – cùng một lúc. Điều này cho phép nó phân tích các sắc thái tốt hơn và giúp trả lời các câu hỏi liên quan đến các chủ đề phức tạp tốt hơn. Vì vậy, nó đặc biệt hữu ích trong việc giải thích lý luận trong những môn học phức tạp như toán và vật lý.
Gemini AI của Google từ miễn phí đến cao cấp
Gemini được trình làng với 3 phiên bản hình thức khác nhau là Ultra, Pro và Nano. Ultra là “mô hình lớn nhất và có khả năng nhất cho các tác vụ có độ phức tạp cao”, Pro là “mô hình tốt nhất để mở rộng quy mô trên nhiều tác vụ”, trong khi Nano là “mô hình hiệu quả nhất cho các tác vụ trên thiết bị”. Gemini Ultra có thể hiểu, giải thích và tạo mã chất lượng cao bằng Python, Java, C++ và Go.
Nó có thể hoạt động trên nhiều ngôn ngữ và suy luận về những thông tin phức tạp. Nó vượt trội trong một số tiêu chuẩn mã hóa, bao gồm HumanEval và Natural2Code, bộ dữ liệu nội bộ của Google, sử dụng các nguồn do tác giả tạo thay vì thông tin dựa trên web. Bard AI của Google hiện đang sử dụng “phiên bản tinh chỉnh” của Gemini Pro, bất kể điều đó có nghĩa là gì.
Google cho biết điều này sẽ mang lại cho nó “lý luận, lập kế hoạch, hiểu biết nâng cao hơn và hơn thế nữa”. Trên thực tế, Google tự hào rằng Gemini Pro vượt trội hơn GPT-4 ở sáu trên tám điểm chuẩn mà nó chạy. Hơn nữa, Google đã thực hiện một số đánh giá dạng blind-test với những người đánh giá bên thứ ba và nhận thấy rằng “Bard hiện là chatbot miễn phí được ưa thích nhất so với các lựa chọn thay thế hàng đầu”.
Gemini AI đã vượt mặt con người như thế nào?
Gemini có gì đặc biệt mà Google lại tự tin nói rằng nó “vượt mặt” con người ở cấp độ chuyên gia? Theo Google, Gemini là một mô hình AI tổng quát, có thể học hỏi từ nhiều nguồn dữ liệu khác nhau, không chỉ là văn bản. Nó có thể xử lý các loại dữ liệu phức tạp như hình ảnh, âm thanh, video và mã lập trình, và kết hợp chúng với nhau để tạo ra những kết quả tuyệt vời. Nó cũng có thể thích ứng với nhiều ngữ cảnh và mục đích khác nhau, từ việc trả lời câu hỏi đơn giản đến việc giải quyết các bài toán phức tạp. Nó cũng có thể tạo ra những nội dung sáng tạo và hấp dẫn, từ những bài thơ, truyện ngắn, bài hát, đến những video, trò chơi, và ứng dụng. Nó cũng có thể tùy biến nội dung theo sở thích và nhu cầu của người dùng, từ ngôn ngữ, phong cách, đến mức độ chi tiết.
Để minh họa cho khả năng của Gemini, Google đã thực hiện một số thử nghiệm và trình bày kết quả trước công chúng. Một trong những thử nghiệm ấn tượng nhất là khi Gemini được yêu cầu giải thích một định lý toán học phức tạp, đó là định lý Fermat lớn nhất. Định lý này nói rằng không có ba số nguyên dương a, b, và c nào thỏa mãn phương trình a^n + b^n = c^n với n lớn hơn 2. Đây là một trong những bài toán khó nhất trong lịch sử toán học, và chỉ được chứng minh vào năm 1995 bởi nhà toán học người Anh Andrew Wiles, sau hơn 350 năm kể từ khi Pierre de Fermat đưa ra định lý này. Gemini đã giải thích định lý này bằng cách sử dụng các khái niệm toán học cơ bản, các ví dụ minh họa, và các bước lập luận logic. Gemini cũng đã tạo ra một video giải thích định lý này bằng cách sử dụng các hình ảnh, âm thanh, và mã lập trình. Kết quả là một bài giảng toán học rất dễ hiểu và hấp dẫn, mà ngay cả những người không chuyên về toán học cũng có thể theo dõi được. Gemini đã nhận được nhiều lời khen ngợi từ cộng đồng toán học và giáo dục, và nhiều người cho rằng nó có thể trở thành một công cụ hỗ trợ giảng dạy và học tập tuyệt vời.
Một thử nghiệm khác mà Google đã thực hiện là khi Gemini được yêu cầu tạo ra một ứng dụng di động cho một công ty du lịch. Gemini đã hỏi về mục tiêu, đối tượng, và tính năng của ứng dụng, và sau đó đã tạo ra một bản thiết kế giao diện người dùng, một bản mô tả chức năng, và một bản mã nguồn cho ứng dụng. Gemini cũng đã tạo ra một video giới thiệu ứng dụng, bao gồm cả lời bình và nhạc nền. Ứng dụng mà Gemini tạo ra có tên là TravelGem, và nó cho phép người dùng tìm kiếm, đặt, và quản lý các chuyến du lịch trên toàn thế giới. Ứng dụng cũng có tính năng đề xuất các điểm đến, hoạt động, và nhà hàng phù hợp với sở thích và ngân sách của người dùng. Ứng dụng cũng có tính năng tương tác với các địa phương, hướng dẫn viên, và du khách khác thông qua một mạng xã hội riêng. Ứng dụng cũng có tính năng thanh toán an toàn và tiện lợi, cũng như hỗ trợ khách hàng 24/7. Ứng dụng mà Gemini tạo ra đã được đánh giá cao về mặt thiết kế, chức năng, và trải nghiệm người dùng, và nhiều người cho rằng nó có thể cạnh tranh với các ứng dụng du lịch hàng đầu hiện nay.
Tổng kết
Những thử nghiệm trên chỉ là một phần nhỏ trong số những gì mà Gemini có thể làm được. Google cho biết hãng sẽ tiếp tục nghiên cứu và phát triển Gemini để mang lại những giá trị tốt nhất cho người dùng và xã hội. Google cũng hy vọng rằng Gemini sẽ trở thành một nguồn cảm hứng cho các nhà nghiên cứu và nhà phát triển AI khác, và góp phần vào sự phát triển của trí tuệ nhân tạo tổng quát.