Bài viết được admin Newstarvn.com cập nhật vào tháng 6.2025. Sau khi nghiên cứu trên các cộng đồng mà check thực tế trên Imagen 2. Mình nhận định đây là AI tạo ảnh tốt nhất ở thời điểm hiện tại.
Tuy nhiên, để có được bức ảnh có độ nét cao nhất, giống thật nhất và đặc biệt là các Text trong ảnh chính xác nhất, bạn nên cung cấp câu Prompt thật chi tiết khi sử dụng công cụ Gemini (trước đây là Google Bard), vì nó được tích hợp mô hình Imagen 2 mạnh mẽ nhất.

Dưới đây là phân tích chi tiết để bạn hiểu rõ hơn:
1. Công nghệ cốt lõi: Imagen 2
Imagen 2 là mô hình chuyển văn bản thành hình ảnh (text-to-image) thế hệ mới nhất và tiên tiến nhất của Google. Nó là câu trả lời của Google cho các đối thủ hàng đầu như DALL-E 3 của OpenAI và Midjourney.
Những điểm vượt trội của Imagen 2 so với các thế hệ trước:
- Chất lượng ảnh và tính chân thực (Photorealism): Imagen 2 được huấn luyện trên một tập dữ liệu khổng lồ, giúp nó tạo ra những hình ảnh có độ chi tiết, ánh sáng, bóng đổ và kết cấu vật liệu cực kỳ chân thực, tiệm cận với ảnh chụp thật.
- Khả năng xử lý Text (Điểm mạnh nhất): Đây chính là yếu tố bạn đang quan tâm. Imagen 2 là một trong những mô hình AI đầu tiên trên thế giới xử lý văn bản (text) trong ảnh cực kỳ tốt. Nó có thể:
- Viết đúng chính tả.
- Đặt văn bản một cách tự nhiên lên các bề mặt (ví dụ: logo trên áo, tên trên biển hiệu, chữ trên bìa sách).
- Hiểu các yêu cầu về phông chữ và kiểu dáng.
- Hiểu sâu về yêu cầu (Prompt Understanding): Nó có khả năng phân tích các câu lệnh (prompt) dài và phức tạp, hiểu được mối quan-hệ giữa các đối tượng, con người và bối cảnh để tạo ra một bức ảnh đúng ý đồ nhất.
- Tạo Logo và Biểu tượng: Khả năng xử lý text và hình khối tốt giúp Imagen 2 có thể tạo ra các logo, biểu tượng đơn giản nhưng hiệu quả.
Câu prompt ví dụ về tạo 1 ảnh như sau học sinh Việt Nam yêu thích học công nghệ:
Tạo một bức ảnh góc rộng cho thấy một nhóm học sinh Việt Nam, mỗi em đều đeo khăn quàng đỏ, đang ở trong một phòng thí nghiệm khoa học viễn tưởng đẹp mắt và hiện đại. Bốn bức tường được bao phủ bởi các màn hình lớn, độ nét cao, trình chiếu một bức tranh toàn cảnh hấp dẫn về các biểu đồ và dữ liệu phân bố dân số phức tạp từ khắp nơi trên toàn cầu, với hình ảnh Trái đất lớn đầy mê hoặc ở trung tâm của bức tường chính. Mỗi học sinh đang tập trung vào màn hình máy tính cá nhân của mình, chứa đầy các biểu đồ phức tạp và trực quan hóa dữ liệu, thể hiện sự cống hiến của họ cho các mục tiêu khoa học. Phòng lab được chiếu sáng bằng ánh sáng mát mẻ, vô trùng, tạo ra những chiếc bóng dài và làm nổi bật các đường nét sắc sảo, sạch sẽ của các thiết bị hiện đại. Tổng thể thẩm mỹ mang tính tương lai và tiên tiến, tượng trưng cho sự đóng góp của các em học sinh cho một ngày mai tươi sáng hơn, nhấn mạnh thêm kiến thức sâu rộng mà các em đang có được trong lĩnh vực này.
Và đây là kết quả:

2. Công cụ để sử dụng: Gemini
Bạn không cần phải là một lập trình viên để sử dụng Imagen 2. Google đã tích hợp công nghệ này trực tiếp vào chatbot Gemini.
- Truy cập tại: https://gemini.google.com
- Cách dùng: Hoàn toàn miễn phí. Bạn chỉ cần đăng nhập bằng tài khoản Google của mình.
Hướng dẫn sử dụng Gemini để có kết quả tốt nhất
Để đạt được độ nét cao, chân thực và text chính xác, chìa khóa nằm ở cách bạn viết câu lệnh (prompt).
Bước 1: Truy cập Gemini
Vào trang gemini.google.com.
Bước 2: Viết câu lệnh (Prompt)
Bắt đầu câu lệnh của bạn bằng những cụm từ như:
- “Tạo một hình ảnh…”
- “Vẽ một bức tranh…”
- “Create an image of…” (Sử dụng tiếng Anh thường cho kết quả tốt hơn và chi tiết hơn).
Bước 3: Công thức viết Prompt hiệu quả
Hãy kết hợp các yếu tố sau:
- Chủ thể: Mô tả rõ ràng đối tượng chính.
- Hành động và Bối cảnh: Chủ thể đang làm gì và ở đâu?
- Phong cách (Style): Đây là phần quan trọng để có ảnh đẹp.
- Để giống thật nhất: dùng các từ khóa như photorealistic, ultra realistic, 8K, cinematic lighting, sharp focus, shot on a Sony A7III camera.
- Chi tiết bổ sung: Ánh sáng, góc máy, màu sắc chủ đạo.
- Đối với Text (Quan trọng nhất):
- Đặt đoạn text bạn muốn vào trong dấu ngoặc kép ” “.
- Mô tả rõ vị trí và kiểu dáng của text.
Ví dụ cụ thể:
- Prompt đơn giản: Tạo ảnh một quán cà phê -> Kết quả sẽ rất chung chung.
- Prompt nâng cao (để có ảnh nét, thật và text chính xác):(Tiếng Việt): Tạo một hình ảnh siêu thực (photorealistic) về mặt tiền của một quán cà phê hiện đại ở góc phố Hà Nội. Ánh sáng hoàng hôn ấm áp. Trên tấm biển hiệu bằng gỗ có khắc dòng chữ “The Hanoi Corner” bằng phông chữ thanh lịch. Chụp ảnh với độ nét cao, chi tiết.(Tiếng Anh – Khuyến khích): Create a **photorealistic** image of a modern coffee shop storefront on a street corner in Hanoi. Warm sunset lighting. A wooden sign above the entrance has the text **”The Hanoi Corner”** written in an elegant cursive font. **Ultra realistic, 8K, sharp focus, cinematic.**
Sau khi Gemini tạo ra 2-4 tùy chọn, bạn có thể bấm vào ảnh để xem kích thước lớn hơn và tải về với chất lượng cao.
Để tạo ảnh từ Google với độ nét cao nhất, giống thật nhất và text chính xác nhất, bạn hãy:
- Sử dụng công cụ: Gemini (gemini.google.com).
- Tận dụng công nghệ: Imagen 2 được tích hợp sẵn.
- Viết câu lệnh (Prompt): Càng chi tiết càng tốt, sử dụng các từ khóa về phong cách (photorealistic, 8K, cinematic) và đặt phần text vào trong dấu ngoặc kép ” “. Sử dụng tiếng Anh sẽ tối ưu hóa kết quả.
Làm sao để tạo một bức ảnh chất lượng cao từ Imagen 2.
Để khai thác tối đa sức mạnh của Imagen 2, bạn chắc chắn không nên chỉ viết bừa một câu prompt.
Việc viết prompt cho AI tạo ảnh cũng giống như việc bạn chỉ đạo một nhiếp ảnh gia, một họa sĩ và một chuyên gia ánh sáng cùng một lúc. Bạn càng chỉ dẫn chi tiết, kết quả cuối cùng càng gần với tầm nhìn của bạn.
Dưới đây là một quy trình và các kỹ thuật viết “Cao Prompt” (Prompt nâng cao) để bạn tạo ra những bức ảnh chất lượng đỉnh cao.
Quy trình 4 bước để xây dựng một Prompt đỉnh cao
Hãy coi việc xây dựng một prompt như xây một ngôi nhà, đi từ nền móng đến hoàn thiện.
Bước 1: Ý tưởng cốt lõi (The Core Subject)
Đây là nền móng. Bạn muốn tạo ra cái gì?
- Tệ: một người đàn ông
- Tốt: một doanh nhân Việt Nam lớn tuổi
Bước 2: Xây dựng bối cảnh & Hành động (Context & Action)
Chủ thể đang ở đâu và làm gì? Điều này tạo ra câu chuyện cho bức ảnh.
- Tệ: một doanh nhân Việt Nam lớn tuổi
- Tốt: một doanh nhân Việt Nam lớn tuổi đang ngồi trầm ngâm trong văn phòng penthouse sang trọng, nhìn ra quang cảnh Sài Gòn về đêm.
Bước 3: Thêm “Gia vị” – Phong cách & Kỹ thuật (Style & Technique)
Đây là bước biến một bức ảnh “được” thành một tác phẩm “xuất sắc”. Đây chính là phần “Cao Prompt”. Bạn hãy ra lệnh cho “nhiếp ảnh gia” và “họa sĩ” AI.
- Để giống thật nhất (Photorealism):
- photorealistic, ultra realistic, hyperdetailed (siêu thực, siêu chi tiết)
- 8K, high resolution, sharp focus (độ phân giải 8K, độ nét cao)
- Chỉ định máy ảnh và ống kính (rất hiệu quả): shot on a Sony A7IV with a 85mm f/1.4 lens (chụp bằng máy Sony A7IV, ống kính 85mm f/1.4). Điều này giúp AI hiểu được độ sâu trường ảnh (xóa phông) và chất ảnh bạn muốn.
- Ánh sáng (Lighting): Ánh sáng quyết định 90% cảm xúc của bức ảnh.
- cinematic lighting (ánh sáng điện ảnh)
- golden hour, soft sunset light (ánh sáng giờ vàng, hoàng hôn dịu)
- dramatic lighting, volumetric lighting (ánh sáng kịch tính, các luồng sáng rõ rệt)
- neon lighting, cyberpunk (ánh sáng đèn neon)
- Góc máy (Camera Angle):
- close-up shot (cận cảnh), extreme close-up (siêu cận cảnh)
- wide-angle shot (góc rộng)
- drone shot, aerial view (chụp từ trên cao)
- low-angle shot (góc máy từ dưới lên)
Bước 4: Tinh chỉnh & Chi tiết cuối cùng (Refinement & Final Details)
Đây là những chi tiết nhỏ nhưng tạo ra sự khác biệt lớn.
- Tâm trạng/Không khí (Mood/Atmosphere): serene, calm, nostalgic, mysterious, energetic (thanh bình, yên tĩnh, hoài niệm, bí ẩn, năng động).
- Màu sắc: vibrant colors (màu sắc rực rỡ), monochromatic (đơn sắc), pastel color palette (bảng màu pastel).
- Text (Văn bản): Dùng cú pháp rõ ràng.
- a sign with the text “Sài Gòn Phố”
- a book with the title “Hành Trình Vạn Dặm” elegantly written on the cover
Công thức vàng cho một “Cao Prompt”
Hãy kết hợp các yếu tố trên thành một công thức. Bạn không cần dùng tất cả, nhưng càng nhiều yếu tố liên quan thì càng tốt.
[Phong cách/Kỹ thuật] + [Chủ thể chi tiết] + [Hành động] + [Bối cảnh/Môi trường chi tiết] + [Ánh sáng] + [Góc máy] + [Text nếu có] + [Tâm trạng/Màu sắc]
Ví dụ thực tế: Từ đơn giản đến đỉnh cao
Hãy xem sự khác biệt khi áp dụng quy trình trên.
Ý tưởng: Một cô gái trong quán cà phê có chữ “Hello Vietnam”.
- Prompt tệ (viết bừa):cô gái trong quán cafe có chữ hello vietnam
- Kết quả có thể: Ảnh mờ, cô gái và quán cà phê chung chung, chữ “hello vietnam” có thể sai chính tả, méo mó hoặc đặt ở vị trí vô lý.
- Prompt tốt (có chi tiết):Một cô gái Việt Nam xinh đẹp ngồi trong quán cà phê ở Hội An, trên tường có chữ “Hello Vietnam”.
- Kết quả khá hơn: Bối cảnh rõ ràng hơn, nhưng chất lượng ảnh vẫn có thể là dạng “vẽ” thay vì ảnh thật.
- Cao Prompt (Khai thác tối đa Imagen 2 – Khuyến khích dùng tiếng Anh):**Photorealistic photo**, a beautiful young Vietnamese woman with long black hair, smiling gently. She is sitting at a small wooden table inside a **cozy, rustic coffee shop in Hoi An**. **Warm, soft morning light** streams through a window, illuminating dust particles in the air. On the yellow wall behind her, there is a neatly painted sign with the text **”Hello Vietnam”** in a classic font. **Shot on a Fujifilm X-T4, 56mm f/1.2 lens, cinematic, sharp focus, incredibly detailed.**
Phân tích Cao Prompt trên:
- Phong cách/Kỹ thuật: Photorealistic photo, Shot on a Fujifilm X-T4, 56mm f/1.2 lens, cinematic, sharp focus, incredibly detailed.
- Chủ thể chi tiết: a beautiful young Vietnamese woman with long black hair, smiling gently.
- Bối cảnh: a cozy, rustic coffee shop in Hoi An, at a small wooden table.
- Ánh sáng: Warm, soft morning light streams through a window, illuminating dust particles.
- Text: On the yellow wall behind her, there is a neatly painted sign with the text “Hello Vietnam” in a classic font. -> Mô tả cực kỳ rõ ràng vị trí, nội dung và kiểu dáng của text.
Lời khuyên từ Admin Newstar
Bạn thấy đấy, việc đạt kết quả ra một hình ảnh chất lượng từ các AI tạo ảnh nói chung hay Imagen 2 nói riêng, phụ thuộc khá nhiều vào câu prompt mà bạn nhập vào. Mình cũng xin lưu ý lại các điểm quan trọng sau, mong rằng bài viết này giúp ích được cho bạn 1 phần nào.
- Ưu tiên Tiếng Anh: Các mô hình AI được huấn luyện chủ yếu bằng dữ liệu tiếng Anh. Dùng prompt tiếng Anh sẽ cho ra kết quả chính xác và đa dạng hơn. Bạn có thể dùng Google Dịch để hỗ trợ.
- Lặp lại và Tinh chỉnh: Đừng mong đợi có kết quả hoàn hảo ngay lần đầu. Hãy xem kết quả, sau đó điều chỉnh prompt của bạn (thêm chi tiết, thay đổi ánh sáng, sửa góc máy) và tạo lại.
- Tư duy như một đạo diễn: Khi viết prompt, hãy hình dung bạn đang chỉ đạo một cảnh phim. Bạn muốn diễn viên trông thế nào, bối cảnh ra sao, ánh sáng từ đâu tới, máy quay đặt ở đâu?
Bằng cách áp dụng quy trình và tư duy này, bạn sẽ biến Gemini và Imagen 2 thành một công cụ sáng tạo vô cùng mạnh mẽ, không chỉ là một món đồ chơi giải trí.
Mr Huỳnh – Admin Newstarvn.com

