
誰も使ってなさそうな Mastra Code っていうプロダクトがあった

誰も使ってなさそうな Mastra Code っていうプロダクトがあった

情報の抜き取りに AI を使うのが一番効率的かもしれない

表現を極端に短くするプロンプトを研究中。chatgpt と sakana chat で比べてるけど、結構出力結果が違って面白い

https://github.com/EvanLi/Github-Ranking/blob/master/Top100/Top-100-stars.md
このランキングによると openclaw がすでにスター数9位、尚且つ1位から8位は全部リンク集とか学習リソースなので、ソフトウェアとしてはすでに1位になってるらしい (ソフトウェアとしての2位は react、3位 linux)

Claude Code スクラッチで何かゲームっぽいもの作るとハッカソンモードな感じのコードベースが出てくるけど、そもそも Claude Code が書いてる時点でめちゃくちゃ速いので、最初から保守性に全振りしたコードを出してくれた方が嬉しい。
とはいえ、むやみに初手からテストをガチガチに書かれたり、過度にモジュール分割されても嬉しくない気がする。多分 Claude Code は人間の認知負荷を最小限に抑えるコード出力がデフォルトであるべきな気がする。

AI はロールを与える事で特定の問題に対して性能が上がるけど、話し相手のロールを口頭で変えるという行動に人間は慣れていない(そんな事は現実世界ではあり得ない)。ロールを変えることを自然に表現するような UI を作ると role prompting をもっとみんなが使えるようになるのではないか?

しばらく同じアプリケーションを複数の agent skill で何度も作り直してみて、うまく行く組み合わせを編み出したい。
基本的なアイデアは、LLM 自体の能力は人間に出来る仕事を人間とほぼ同じクオリティでやるには十分 (少なくとも、ゴールに辿り着けるプロンプトは必ず存在はする) にあって、要はプロンプト次第で正しいゴールに辿り着けるかどうかが決まる。
例えば、素の CC にある程度でかい機能を作ってくれと頼むと、繰り返しが多いコードだったり、巨大でレビュー不可能な diff だったりが出てきて「これはクソだ」ってなりがちな訳だけど、人間がなぜそれより良いコードを書けるかというと、作業の大きさを見積もって、大きすぎるのでタスク分解する、実装し終わった後に diff を眺めて、似たような箇所が複数あったら共通 util にまとめる、みたいな作業を別途やっているからでしかない。
CC にそういう細やかなケアが出来ないのは、人間がそれをさせるためのプロンプトを書いていないからでしかなくて、そういうプロンプトをスキルとしてまとめて発動させれば、人間のコードのクオリティに近いコードを CC で作ることが出来ると思う。

もしかしたら、有名な本、例えば達人プログラマー、の各種テクニックを TLDR 化したものをスキル化して (/pragmatic-programmer とか)、そのスキルを実行するとその本のテクニックによるコード改善を提案できるようにしたら便利かもしれない。

claude に DDD 観点でレビューさせたらめちゃくちゃ良かった。汎用スキル化したい。
claude にスクラッチ状態からやりたい事だけ言うと、設計も何もない書き捨てる前提みたいなコードが出てくるけど、それは claude の能力が低いわけではなくて、正しいモードで動いてないだけで、DDD 観点で organize しろと命じればかなりのクオリティでちゃんと出来そうな気配がある。

coderabbit っていうAIレビューツールが良いらしい。そういえば、Bunも使ってたな。
claude code → coderabbit cli → claude code で対応 → coderabbit っていうループ回してクオリティを上げるテクニックをやってる記事があった

Pull request is the bottleneck now

claude code って、coding の依頼しかしちゃいけないような気になってたけど、普通に chatgpt 的に使っても良いのか、、ってことに今更気づいた

https://github.com/qwibitai/nanoclaw
openclaw clone の nanoclaw、skills over features なんていうポリシーを掲げている。例えば、telegram と通信するコードを feature として実装するのではなくて、telegram と通信する feature を作ってくれる claude skill を contribute せよ、ということらしい。
claude code は十分に賢いという前提に立てば、それで良いのかもしれない。ただし、各スキルの正しさは CI でチェックされていないので、理論上は「いつの間にか壊れていた」があっても何もおかしくない状態。

OpenRouter やっと理解。各 AI provider へのリクエストを課金まで含めてまとめて面倒みてくれる便利サービスってことか・・・
これ使えば、UI 上でモデル選択できる奴を簡単に実現できるってことね

https://x.com/yoshiko_pg/status/2033537207999549890
そうそう AI がベースラインの期待値になって、別に楽にならない。むしろ期待値が上がって各個人は大変になる。

AI の流行で「コーディングの生産性がめちゃくちゃ上がる、最高!」っていうメッセージと「AI でなんでも作れるから人がコーディングしても意味がない!」ていう矛盾したメッセージの両方が来てる感じがする

voidzero が void って言う platform 出してきた。なるほど https://www.publickey1.jp/blog/26/vitewebvoidcloudflare.html

最近の x 本当にクソコメばっかり

Claude 自身に「メンタルモデル」を持っているか、と聞いたら否定された。あくまでも、今までのテキストの集合をそのまま扱っているだけだ、と言う認識らしい。まあ、でも AI の自分自身に対する認識が正しくない事も全然あるので、分からない。

Claude の良さって一般的な LLM の良さとはまた別な気がする。こういう時はこうするみたいな、引き出しを Claude はたくさん身につけていて、その選択自体は LLM がコンテキストからやっていそうだけど、引き出し自体を用意しているのは Claude を作っているエンジニアが定義しているんじゃないだろうか・・・? (例えば、画像系の処理だったら Python を起動して Pillow を叩く、みたいなことはハードコードされていそう)
それプラス Claude は Generic Chat LLM みたいに単にそれっぽい次の回答を何となく喋るだけでなくて、今のコンテキストでは何が課題で、今どう分析されていて、みたいなコンテキストの抽象的なモデルのようなものを構築しているように見える。なので「少し前に言っていたこと」と「今新たに分かったこと」に矛盾があったりした時に、正しく「分からなくなった」みたいなリプライをしてくる事が出来る。こういうところは、ChatGPT みたいなただの汎用 AI とは明らかに異なる挙動のように見える (ChatGPT は会話が少し離れた箇所で矛盾していると、指摘できていない感じがする)

Claude が「それっぽい」diff を大量生産 -> 細かく見切れないので「おおまかに」LGTM でマージ -> 人間が手でやってたらありえない凡ミスバグ発生
ってパターンがなかなか収まらない。人間が一番レビューしやすい diff (要は認知コストの小さい diff) を出せるほどには Claude はまだ賢くない。
っていう意味で、まだ「人間がコードを書く時代は終わった」と言うには早すぎると思う。人間が時間をかけて書いた良いコードと同じものを Claude が一瞬で出してくるなら、流石にもう人間が書かない方が良い、となるかもしれないけど、人間が書く一番良いコードに Claude はまだ辿り着けてない。

あるソフトウェアを追う時に、github で repo をウォッチするより、定期的にその repo のメインブランチで claude に最近の変更まとめてって聞いた方が良さそう

SaaS の終焉って何のこっちゃって感じだったけど、今回確定申告の作業してて、ほとんどのステップが AI にデータぶん投げると解決する事に気づいて、ある種の SaaS がもう成り立たなくなってるかもというのが急に納得できた。
ある種のというのは、いろんな種類のデータを取りまとめて、何らかのレポート・インサイトにまとめますよっていうだけのよくあるパターンの SaaS の事で、成果物がデータだけあれば良くて、コミュニケーション範囲が1ユーザ・1アカウント内で閉じてるような形態の SaaS はもう成り立たなそう。
でも、逆にユーザー間のコミュニケーションがサービスの一部分だったりすると、AI で解決する見込みがとりあえず無いので、あくまで特定のパターンの SaaS が無くなるという話でしかないという気もする

今のプロジェクトが結構複雑な SQL 書いてて、データがどうなってるのか追えなくてアンチパターン踏んでるような気がしてたけど、claude に DB 探索させながら状況を見れば意外と深くまで調べられるので、それほどアンチパターンではないかもしれないという気がしてきた

claude って結構「それはさっき言った」とか「そうはならない」とかユーザーのミスに対してツッコミを入れる感じの挙動が出来ている時がある気がする。あと、仮説が外れて分からなくなった、みたいなこともちゃんと表明できる時がある。
ハルシネーションで突き進むんじゃなくて「分からない」と言って止まれるところはなかなかすごい気がする。chatgpt なんかは自分から分からないと言った場面を見た事ない (その代わり「その認識間違いだよ」と指摘すると、急に手のひら返しで謝ってきて、バカっぽさがある)

DB の深い状態の探索に claude を使うのは便利だ。人間がクエリー書きながら探索してたら何時間もかかりそうなことが、結構短時間で出来る。

Social Media, MCP に関して荒れてる。まあ、確かに流行ってない感じがする。代わりにスキルマーケットプレースが出来たり、npm でスキル配布しようとか、スキルっていう単位で AI をコンフィグしようみたいな流れが流行ってる感じがする。

こういう defer util 書けるな・・。もう、これだったら defer キーワードが欲しくなってくるけど
await using _ = defer(async () => { ... })
結局、AI がいくら大量に高速にコードを書いても、人間の認知が追いつかないとプロジェクトが育っていかないので、AI はコードを書くことよりも人間の認知を伸ばす方向に注力してほしい