Blog này cúc mì AI

Điều gì thực sự xảy ra bên trong một mô hình ngôn ngữ lớn khi ai đó đặt câu hỏi? Và điều này có ý nghĩa gì đối với khả năng hiển thị và liên kết trong tìm kiếm AI?

Bài viết này phân tích một system prompt bị rò rỉ từ Claude 4. Nó cung cấp cái nhìn chi tiết về cách mô hình quyết định khi nào cần tìm kiếm, sử dụng công cụ nào và trong điều kiện nào nội dung được đề cập hoặc thậm chí được liên kết. Điều này đặc biệt quan trọng đối với các chuyên gia SEO vì lần đầu tiên, nó cung cấp một cách có thể theo dõi để hiểu cách thức hoạt động của khả năng hiển thị trong một LLM – và cách hành vi này khác với các công cụ tìm kiếm truyền thống như Google.

Một điểm thường bị bỏ qua trong cuộc thảo luận về SEO xoay quanh AI là việc kích hoạt tìm kiếm web. Nó không phải là một phần trong hành vi tiêu chuẩn của mô hình ngôn ngữ mà chỉ được sử dụng khi kiến thức nội bộ không đủ. Vụ rò rỉ của Claude làm rõ điều này. Đối với thực hành SEO, điều này có nghĩa là: Chỉ khi tìm kiếm thực sự được kích hoạt thì mới có cơ hội thực tế để được liên kết – và nhận được các lượt nhấp chuột thực sự.

1. Bối cảnh: Vụ rò rỉ System Prompt của Claude

Anthropic đã chính thức công bố một số chi tiết về system prompt trên trang web của mình, chẳng hạn như trong "Claude System Prompt Release Notes" (có sẵn tại đây). Tuy nhiên, phiên bản được cung cấp có vẻ ngắn gọn hơn đáng kể. Ngược lại, prompt được thảo luận ở đây đến từ một vụ rò rỉ được chia sẻ bởi @elder_plinius vào ngày 22 tháng 5 năm 2025 trên X (trước đây là Twitter) và chi tiết hơn nhiều. Các bình luận từ cộng đồng chỉ ra rằng mặc dù về mặt kỹ thuật đây không phải là một vụ rò rỉ cổ điển, nhưng đây thực sự là một phiên bản sâu chưa từng được công bố.

Claude là trợ lý chính do Anthropic (Mỹ, San Francisco) phát triển và được tài trợ một phần bởi Amazon và Google. Prompt bị rò rỉ cung cấp cái nhìn sâu sắc về cơ chế kiểm soát nội bộ của mô hình, logic an toàn và cách Claude xử lý các truy vấn tìm kiếm, thông tin và nguồn.

2. Nội dung của Prompt là gì?

System prompt của Claude là một kịch bản hành vi được định dạng cao. Nó bao gồm:

Nhận diện và kiến thức sản phẩm (Claude Sonnet 4)
Hướng dẫn đạo đức (trẻ em, tự bảo vệ, bản quyền, lạm dụng)
Giọng điệu và tương tác (đồng cảm, không bao giờ khen ngợi, không liệt kê trong trò chuyện nhỏ)
Hướng dẫn sử dụng công cụ (ví dụ: tìm kiếm web, công cụ nội bộ)
Các danh mục cho chiến lược tìm kiếm (xem bên dưới)
Xử lý chính trị và tin tức (ví dụ: Donald Trump như một khối thông tin được quy định chính xác)

3. Trọng tâm: Tìm kiếm, Liên kết & Chiến lược Công cụ

Prompt xác định rõ ràng khi nào và cách Claude tìm kiếm thông tin, liệu nó có sử dụng các công cụ như tìm kiếm web hay không và cách xử lý các nguồn. Phần này đặc biệt quan trọng đối với các chuyên gia SEO vì nó làm rõ khi nào nội dung trở nên hiển thị hoặc có thể liên kết. Logic kiểm soát trung tâm dựa trên bốn danh mục tìm kiếm cố định:

"Sử dụng số lượng lệnh gọi công cụ thích hợp cho các loại truy vấn khác nhau bằng cách tuân theo cây quyết định này: NẾU thông tin về truy vấn là ổn định (hiếm khi thay đổi và Claude biết câu trả lời rõ ràng) → không bao giờ tìm kiếm..."

3.1 "never_search" (không bao giờ tìm kiếm)

Các sự kiện vượt thời gian hoặc ổn định ("Thủ đô của Pháp là gì?") → Claude luôn trả lời trực tiếp, không cần tìm kiếm.

"Không bao giờ tìm kiếm các truy vấn về thông tin vượt thời gian, khái niệm cơ bản hoặc kiến thức chung mà Claude có thể trả lời mà không cần tìm kiếm."

Những câu trả lời như vậy thường không chứa liên kết có thể nhấp vào – vì Claude không thực hiện tìm kiếm web thực sự trong những trường hợp này. Không giống như công cụ tìm kiếm, các mô hình ngôn ngữ như Claude hoặc ChatGPT không có chỉ mục URL cơ bản. Chúng không lưu trữ địa chỉ web dưới dạng thực thể có cấu trúc, có thể truy vấn. Thay vào đó, bất kỳ đề cập nào đến URL phải được tái tạo từ các token dựa trên xác suất, thường rút ra từ dữ liệu đào tạo phân mảnh. Quá trình tái tạo này vốn không chính xác và có thể dẫn đến các liên kết bị hỏng hoặc tham chiếu đến các trang lỗi thời – dẫn đến lỗi 404. Để tránh rủi ro này, các LLM thường tránh đưa liên kết vào câu trả lời của chúng trừ khi chúng được nối đất thông qua tìm kiếm thời gian thực. Chỉ khi đó, mô hình mới có thể truy xuất liên kết hợp lệ, cập nhật từ chỉ mục bên ngoài – và trích dẫn nó một cách đáng tin cậy.

3.2 "do_not_search_but_offer" (không tìm kiếm nhưng đề xuất)

Kiến thức hiện có, nhưng cập nhật có thể liên quan ("Dân số của Đức là bao nhiêu?") → Claude cung cấp câu trả lời từ mô hình và tùy chọn đề xuất tìm kiếm.

"Nếu Claude có thể đưa ra câu trả lời vững chắc cho truy vấn mà không cần tìm kiếm, nhưng thông tin gần đây hơn có thể hữu ích, hãy luôn đưa ra câu trả lời trước, sau đó đề xuất tìm kiếm."

3.3 "single_search" (tìm kiếm đơn lẻ)

Sự kiện nhanh với tính thời sự cao ("Ai đã thắng trận đấu hôm qua?") → Claude thực hiện tìm kiếm có mục tiêu và phản hồi.

"Sử dụng web_search hoặc công cụ liên quan khác MỘT lần ngay lập tức. Thường là các truy vấn thực tế đơn giản cần thông tin hiện tại có thể được trả lời với một nguồn có thẩm quyền duy nhất."

3.4 "research" (nghiên cứu)

Nhiệm vụ phức tạp, đa chiều ("Tạo phân tích cạnh tranh cho sản phẩm XY") → Claude sử dụng 2–20 lệnh gọi công cụ, làm việc lặp đi lặp lại và tạo phản hồi có cấu trúc với bản tóm tắt điều hành.

"Bất kỳ truy vấn nào yêu cầu CẢ công cụ web VÀ nội bộ đều thuộc về đây và cần ít nhất 3 lệnh gọi công cụ... sử dụng 2–20 lệnh gọi công cụ tùy thuộc vào độ phức tạp của truy vấn."

3.5 Liên kết Nguồn và Bản quyền

Claude không bao giờ được tái tạo hơn 20 từ liên tiếp từ các nguồn bên ngoài trong một đoạn

"QUAN TRỌNG: Luôn tôn trọng bản quyền bằng cách KHÔNG BAO GIỜ tái tạo các đoạn nội dung lớn từ 20+ từ từ kết quả tìm kiếm, để đảm bảo tuân thủ pháp luật và tránh gây hại cho chủ sở hữu bản quyền."

Claude diễn giải lại, tóm tắt hoặc chỉ phản ánh lỏng lẻo nội dung nguồn Claude không tự động trích dẫn tất cả các nguồn đã sử dụng

4. Những gì các chuyên gia SEO có thể học hỏi

4.1 Trang web chỉ xuất hiện trong "single_search" và "research"

Điều này có nghĩa là: Khả năng hiển thị bao gồm các liên kết trong Claude chỉ phát sinh khi một truy vấn không thể được trả lời chỉ với kiến thức mô hình.

4.2 Mức độ liên quan = Giá trị liên kết trong bối cảnh Claude

Liệu Claude có liên kết đến một nguồn phụ thuộc một phần vào các danh mục tìm kiếm (ví dụ: "single_search", "research"). Nhưng cũng quan trọng không kém là liệu nội dung có thể được diễn giải lại dễ dàng hay không – hoặc nếu nó bao gồm thứ gì đó mà người dùng chỉ có thể nhận được từ trang được liên kết. Điều này tạo cơ hội cho nội dung vượt ra ngoài sự kiện đơn thuần, ví dụ:

công cụ tương tác (ví dụ: công cụ cấu hình, máy tính, công cụ lập kế hoạch)
bảng được cập nhật thường xuyên, so sánh giá hoặc cơ sở dữ liệu
đánh giá người dùng cá nhân, lời chứng thực hoặc xếp hạng
nội dung khu vực, cá nhân hoặc ngách mà Claude không thể "điền vào"
chuyên môn biên tập với đánh giá, bối cảnh hoặc cách tiếp cận giải quyết vấn đề

Nội dung như vậy cung cấp điều gì đó mà người dùng không muốn bỏ lỡ – ngay cả khi Claude có thể đưa ra một bản tóm tắt ngắn gọn.

Claude không liên kết chỉ dựa trên thẩm quyền hoặc sức mạnh thương hiệu. Mặc dù prompt có thể yêu cầu một "nguồn có thẩm quyền duy nhất" trong một số truy vấn dựa trên sự kiện, Claude thường ưu tiên các nguồn đáng tin cậy, đã được thiết lập khi có sẵn các tùy chọn. Tuy nhiên, điều này không có nghĩa là các thương hiệu lớn tự động được ưu tiên. Điều quan trọng nhất là liệu:

nguồn phù hợp chính xác với truy vấn người dùng
nội dung chưa có trong kiến thức nội bộ của mô hình
nguồn được cấu trúc rõ ràng và có thể trích dẫn một cách ngắn gọn

4.3 Văn bản SEO phải tương thích với Claude

cấu trúc rõ ràng
câu trả lời ngắn gọn, có thể sao chép
không rườm rà
không liệt kê dư thừa

4.4 Cuộc cạnh tranh mới: Ai cung cấp sự kiện đáng trích dẫn cho LLM?

Nếu bạn muốn được đề cập trong danh mục "research", bạn phải hiển thị như một nguồn cho các phân tích hoặc dữ liệu so sánh (ví dụ: so sánh giá, xếp hạng, nghiên cứu, đánh giá).

5. Khả năng chuyển giao sang ChatGPT và Gemini

5.1 ChatGPT (OpenAI)

không có danh mục prompt cố định, nhưng hành vi công cụ web tương tự
thường 1–3 truy vấn song song, đôi khi các vòng lặp nghiên cứu sâu hơn tùy thuộc vào prompt và ngữ cảnh
ở đây, liên kết cũng theo ngữ cảnh và thưa thớt

5.2 Gemini (Google)

rất ít thông tin được biết chính thức về mô hình ngôn ngữ
liên kết nguồn chỉ xuất hiện hiếm khi trong giao diện trò chuyện của Gemini
không có quy tắc được ghi nhận công khai cho việc lựa chọn nguồn hoặc cấu trúc trích dẫn

5.3 Điểm chung

tất cả các LLM không liên kết dựa trên logic SEO mà theo sự phù hợp ngữ nghĩa của prompt
nội dung phải có thể trích dẫn, rõ ràng và có cấu trúc

6. Ý nghĩa đối với công việc SEO

SEO trở thành tối ưu hóa trích dẫn LLM: nếu bạn không được trích dẫn, bạn sẽ không hiển thị
xếp hạng truyền thống mất tầm quan trọng trong giao diện LLM
nội dung cần độ sâu thực tế, rõ ràng và tính mô-đun hơn
tư duy từ khóa không còn đủ: điều quan trọng là liệu nội dung có phù hợp như một câu trả lời hay không – và liệu nó có được liên kết hay không
nếu mô hình kinh doanh của bạn phụ thuộc vào lượt nhấp chuột và khách truy cập, hãy cung cấp nội dung không chỉ được trích dẫn mà còn được liên kết

Kết luận: Vụ rò rỉ của Claude cung cấp một cái nhìn hiếm hoi vào hộp đen của tìm kiếm AI. Đối với các chuyên gia SEO, nó cho thấy: Nếu bạn muốn duy trì khả năng hiển thị, bạn cần nhiều hơn là xếp hạng – bạn cần có thể được trích dẫn, phù hợp với mô hình và được cấu trúc rõ ràng.

Sẵn sàng cho prompt. Tương thích với LLM. Được tối ưu hóa cho trích dẫn.

Lộ System Prompt của Claude: Tác động đến SEO